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<< hoch zum Anfang vom Inhaltsverzeichnis 

0. Was ist Statistik? 

« hoch zum Kapitel vom Inhaltsverzeichnis 

Was ist Statistik? 

Statistik begegnet uns uberall im taglichen Leben: 

• Die Lebenshaltungskosten sind gegenuber dem Vorjahr urn 2 Prozentpunkte 
gestiegen. 

• Im Januar 2005 erzielte die Firma Dachs im Durchschnitt die taglichen Aktienkurse, 
wie in der Grafik angegeben. 

• Hochrechnung von Wahlergebnissen 

• Wieviel Gewinn kann eine Lottogesellschaft auswerfen, damit ihr noch Uberschuss 
bleibt? 

Was haben diese Beispiele gemeinsam? Sie basieren auf Daten, und zwar sehr vielen 
Daten. In diese Daten wird Ordnung gebracht: Mit einer Grafik, mit 
Wahrscheinlichkeiten, mit Durchschnittsberechnungen, mit Vergleichen. Das ist 
angewandte Statistik. 

Wir kommen damit zu einer Definition der Statistik, die relativkurz und schnorkellos 
ist, aber im Wesentlichen alles sagt: 

Statistik ist die Gesamtheit der Methoden, die fur die Untersuchung von 
Massendaten angewendet werden konnen. 

Ziel der Statistik ist es also, Massendaten zu reduzieren und zu komprimieren, urn GesetzmaGigkeiten und Strukturen in den Daten sichtbar zu 
machen. 

Anwendung im wirtschaftlichen Kontext 

Die Lage der Unternehmen heute ist gepragt von Globalisierung, Konkurrenz und Kostendruck. Einsame Manager-Entscheidungen aus dem 
Bauch heraus fuhren haufig zum Ruin des Unternehmens. Die Analyse von Wirtschafts- und Unternehmensdaten erlaubt rationale und fundierte 
Unternehmensentscheidungen. In der Realitat sind jedoch Informationen uber Unternehmensprozesse nurteilweise bekannt. Grunde dafursind 
beispielsweise 

1. Die Informationen sind zu komplex, urn vollstandig erhoben zu werden. Beispiel: Der Papierverbrauch in einem grofeen Unternehmen 
hangt von vielen Faktoren ab, wie der Zahl der Kopien eines Schreibens, der Neigung der Mitarbeiter, sich alles ausdrucken zu lassen (E- 
Mails!), dem Umfang des Verteilers fur bestimmte Schreiben etc. Man kann den Verbrauch nicht analytisch bestimmen. 

2. Zukunftige Unternehmenszahlen sind nicht bekannt und mussen geschatzt werden, z. B. der Cash-Flow einer geplanten Investition fur die 
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Finanzierungsrechnung. 
3. Umwelteinflusse konnen nicht vorherbestimmt werden, etwa die „Gefahr" einer Steuererhohung oder die Akzeptanz eines neuen Produkts 
durch den Kunden. 

In solchen Fallen konnen keine exakten Entscheidungsgrundlagen geliefert werden. Die resultierenden Losungen sind „unscharf. Ein Hilfsmittel 
fur die Entscheidung unter Unsicherheit ist die Statistik. 

Da in der heutigen informationsbasierten Gesellschaft eher zu viel als zu wenig Daten verfugbar sind, gewinnt die Statistik als Werkzeug der 
Entscheidungsfindung immermehran Bedeutung. 

Einteilung der statistischen Methoden 

1. Deskriptive (beschreibende, empirische) Statistik: Man untersucht ein Phanomen und fasst die Daten zusammen, ordnet sie, stellt 
sie grafisch dar. Auf wissenschaftliche Aussagen wird verzichtet. 

2. Induktive (schlieftende, folgernde, mathematische, analytische) Statistik: Grundlage ist die Wahrscheinlichkeitstheorie. 
Ergebnisse der deskriptiven Statistik dienen haufig als Ausgangspunkt fur verallgemeinernde Aussagen. 

Die mathematische Statistik selbst ist wie die Wahrscheinlichkeitstheorie ein Teilgebiet der Stochastik. 



Wahrscheinlichkeitsrechnung 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 1 vom Inhaltsverzeichnis 



Was ist Wahrscheinlichkeit? 



Das weift niemand. Sie ist ein Produkt menschlicher Bemuhungen, Ereignisse in der Zukunft vorherzusagen. Sie soil eine Vorstellung uber den 
Grad der Sicherheit vermitteln, mit der ein Ereignis auftritt. Jeder weife, was es bedeutet, wenn ich sage: Die Wahrscheinlichkeit, eine Sechs zu 
wurfeln ist grafter als die Wahrscheinlichkeit, beim Skat einen Grand zu gewinnen. Abertrotzdem kann man Wahrscheinlichkeit nicht exakt 
definieren. So konnte man Wahrscheinlichkeitstheorie als Stochern im Nebel bezeichnen. Das hat aber nichts mit dem Begriff Stochastik zu 
tun! 



1.1. 



Zufallsvorgang und Wahrscheinlichkeit 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 1 vom Inhaltsverzeichnis 



Pizzaecken-Beispiel zum Begriff der Wahrscheinlichkeit 

Harry und Paula gehen in die Pizzeria. Sie sind frisch verliebt. Paula bestellt sich eine Pizzaecke mit Salami und Harry eine mit Schinken. 
Dann tauschen sie jeweils eine Halfte, wobei anzumerken ist, dass die Ecken sich in Rand- und Mittelstuck teilen lassen. Obwohl Harry 
normalerweise Randstucke lieber mag, achtet er in seinem aktuellen Zustand nicht darauf. Und auch Paula gibt ihre Halfte rein nach Zufall ab. 

Wie graft ist eigentlich die Wahrscheinlichkeit, dass Harry zwei Randstucke auf dem 
Teller hat? 

Die Meisten antworten richtig: 1/4. 

Aber wieso betragt die Wahrscheinlichkeit ausgerechnet 1/4? 

Betrachten wir den Vorgang: 

Bei gleicher Ausgangslage (Bedingungskomplex) kann der Versuch, zwei halbe 
Pizzaecken zufallig auszutauschen, beliebig oft wiederholt werden. Jeder Versuch 
hat einen unsicheren Ausgang. Es handelt sich hier urn einen Zufallsvorgang 
(Experiment, Versuch). 

Der Zufallsvorgang wird also beschrieben durch: 

• Gleicher Bedingungskomplex 

• Unsicherer Ausgang 

• Beliebig oft wiederholbar 
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Ein bestimmtes Paar Eckhalften auf Harrys Teller ist ein Ergebnis. Ein Ergebnis ware beispielsweise: Die erste Halfte ist ein Randstuck, die 
zweite Halfte ist ein Mittelstuck, 

(R;M)oder kurz RM, 
wobei das Jinke" Stuck von Harry stammt und das „rechte" von Paula. 
Alle moglichen Paare fasst man in der Ergebnismenge Q zusammen: 

Q = {RR, RM, MR, MM}. 

Q ist also die Menge aller moglichen Ergebnisse, die bei einem Zufallsvorgang auftreten konnen. Fuhrt man diesen Zufallsvorgang unendlich oft 
durch, mussten vermutlich in 25% aller Vers uche zwei Randstucke resultieren, denn man konnte davon ausgehen, dass jedes Paar die gleiche 
Wahrscheinlichkeit hat, gezogen zu werden. Die Zahl der Ergebnisse, |Q| genannt, ist also vier. Deshalb ist die Wahrscheinlichkeit fur ein Paar 
Randstucke 

P(RR) = \ . 

Wenn nun bei einem Versuch beispielsweise „RM" resultiert, ist das ein Ereignis. 

Bei „RM" handelt es sich urn ein Elementarereignis. Es ist ein Ereignis, das nur ein Element der Ergebnismenge enthalt. 

Es gibt auch kompliziertere, zusammengesetzte Ereignisse: 

A: Mindestens ein Mittelstuck: A = {RM, MR, MM} 

B: Eine komplette Pizzaecke: B = {RM, MR} 

Diese Ereignisse beinhalten mehrere Ergebnisse von Q; ein Ereignis ist immer eine Teilmenge von Q. 

Das zusammengesetzte Ereignis A tritt also genau dann ein, wenn eines der Elementarereignisse {RM}, {MR} oder {MM}, die in A enthalten 
sind, eintritt. 

Die Wahrscheinlichkeit als theoretisches Konzept 
Kurzer geschichtlicher Uberblick 

Es werden vermutlich schon so lange Wahrscheinlichkeiten angewendet, wie es den Homo Sapiens gibt. Am letzten Tag der Schlacht im 
Teutoburger Wald (9 n. Chr.) gab es ein Gewitter. Die Romer deuteten es als warnenden Hinweis von Merkur, des Gottes von Blitz und Donner. 
Die Germanen sahen es als Aufmunterung des Kriegsgottes Thor. Wie man weift, hatten beide Parteien recht. 

Im 17. Jahrhundert, dem Zeitalter des Rationalismus, befasste sich Blaise Pascal (1623 - 1662) systematisch mit Wahrscheinlichkeiten im 
Glucksspiel und begrundete so die Wahrscheinlichkeitsrechnung als eigenstandige Disziplin. 

Jakob Bernoulli (1654 - 1705) befasste sich ebenfalls mit Fragen der diskreten Wahrscheinlichkeiten und gab vermutlich das erste Buch uber 
Wahrscheinlichkeitsrechnung heraus. 

Mit Abraham de Moivre (1667 - 1754) und Pierre Simon Laplace (1749 - 1827) wurde bereits die Normalverteilung entwickelt und von Carl 
Friedrich Gaud (1777 - 1855) weiter bearbeitet. 

Richard Edler von Mises (1883 - 1953) lieferte wertvolle Beitrage zur Schatzung von Wahrscheinlichkeiten und zur mathematischen Statistik. 

1933 schlug der russische Mathematiker Andrej Nikolajewitsch Kolmogorow (1903 - 1987) eine axiomatische Definition der 

Wahrscheinlichkeit vor, auf der die heutige Wahrscheinlichkeitstheorie basiert. Diese Definition ist eine Anwendung der MafMheorie. 

Ergebnisse und Ereignisse 

Das heutige Konzept der Wahrscheinlichkeitsrechnung prasentiert sich folgendermaften: 

Gegeben ist die Ergebnismenge (Ereignisraum, Stichprobenraum) Q eines Zufallsvorgangs. Diese Menge enthalt alle moglichen Ergebnisse, 
die ein Zufallsvorgang hervorbringen kann. Je nach Art des Zufallsvorgangs muss man verschiedene Ergebnismengen betrachten: 

Q enthalt endlich viele Ergebnisse. 

Beispiele: 

• Zufallsvorgang: 1x Wurfeln. Q = {1, 2, 3, 4, 5, 6}. 
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• Zufallsvorgang: Augenfarbe der nachsten Person, die bei einem Casting vorspricht. Q = {blau, grun, braun}. 

Q enthalt abzahlbar unendlich viele Ergebnisse. 
Beispiele: 

• Zufallsvorgang: Zahl der Autos, die eine Stunde lang ab 12 Uhr bei einer Fahrzeugzahlung an einer bestimmten Zahlstelle vorbeifahren. Q = 
{0, 1, 2, 3, ...}. 

• Zufallsvorgang: Zahl derAnforderungen an einen Server innerhalb einer Stunde. Q = {0, 1,2, ...}. 

Man kann zwar die Ergebnisse durchzahlen, aber es kann keine vernunftige Obergrenze angegeben werden, deshalb lasst man die 
Obergrenze often. 

1st Q weder abzahlbar noch abzahlbar unendlich, so enthalt Q uberabzahlbar viele Ergebnisse. Man konnte auch sagen, die Ergebnismenge 
ist ein Intervall der reellen Zahlen. 

Beispiele: 

• Zufallsvorgang: Eine erwachsene Person wird gewogen (in kg). Q = {x|30 < x < 200; x 6 ][£}. 

• Zufallsvorgang: Cash-Flow eines Unternehmens (in €). Q = JJ. 

Cash-Flow bezeichnet ubrigens die Differenz Einnahmen - Ausgaben, bzw praziser: Einzahlungen - Auszahlungen. 

Hier konnen die Ergebnisse nicht mehr abgezahlt werden. Ein beliebig kleines Intervall der Ergebnismenge enthalt unendlich viele Elemente. 
Was ist das nachstgroftere Element von 50 kg: 51 kg, 50,01 kg oder 50,000000001 kg? Im Intervall [50, 51] sind also unendlich viele 
Elemente. 

Man konnte hier einwenden, dass doch beispielsweise Cash-Flow als kleinste Einheit Cent hat, also doch eigentlich abzahlbar ist. Das 
stimmt naturlich, aber bei sehr vielen, nah zusammenliegenden Elementen vereinfacht man die Analyse, indem man die Menge als 
stetig annimmt. Man spricht hier von Quasistetigkeit. 

Hat ein Zufallsvorgang ein konkretes Ergebnis erbracht, ist ein Ereigniseingetreten. Es gibt einfache Ereignisse, die lediglich ein Ergebnis 
enthalten, so genannte Elementarereignisse und es gibt komplexere Ereignisse, die sich aus mehreren Ergebnissen zusammensetzen. Ein 
Ereignis A ist immer eine Teilmenge der Ergebnismenge Q. 

Da Ereignisse Mengen sind, konnen alle Operationen der Mengenalgebra, die mit der Booleschen Algebra (auch Schaltalgebra) 
gleichgesetzt werden kann, angewendet werden. Grundlegende Operationen fur Mengen der Booleschen Algebra sind ' („nicht" als 
Komplement), fl und U. Alle anderen Operationen konnen daraus hergeleitet werden. 

Alle interessierenden Ereignisse fasst man nun in einer so genannten Ereignismenge (Ere ignissy stem) E zusammen. E ist also eine Menge 
von Teilmengen. Damit diese Menge mit der Booleschen Algebra bearbeitet werden kann, muss sie entsprechende Forderungen erfullen: 

• Wenn das Ereignis A in E enthalten ist, muss auch sein Komplement ,1 enthalten sein. 

• Wenn A und B enthalten sind, muss auch ^U B enthalten sein (Man kann ausrechnen, dass dann auch A fl B enthalten ist). 

• Es muss das „Null-Element" enthalten sein (Das impliziert, dass auch „1 -Element" Q , welches das Komplement von ist, enthalten ist). 
Die umfassendste Ereignismenge ist die Potenzmenge P, die alle Teilmengen von Q enthalt. 

Beispiel einer Potenzmenqe : 

Zufallsvorgang: Aus einer Urne mit einer blauen (b), einer roten (r) und einer gelben (g) Kugel wird eine Kugel gezogen. Wir interessieren uns fur 
die Farbe der Kugel. 

Ergebnismenge: Q = {g, b, r} 

Potenzmenge: P = {0, {r}, {g}, {b}, {r, g}, {r, b}, {g, b}, {r, g, b}} 

Ausgehend von dieser Konstellation hat Kolmogorow mit seinen Axiomen ein Wahrscheinlichkeitsmafl konstruiert, d.h. eine Abbildung der 
Ergebnismenge Q auf die Menge der reellen Zahlen im Intervall [0;1]: 
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F:Q^R;A^P(A) 
Eine Funktion P, die jedem Ereignis Aaus E eine reelle Zahl zuordnet, heiftt Wahrscheinlichkeit, wenn sie folgendeAxiome erfullt: 

Axiome der Wahrscheinlichkeiten: 

Gegeben sind zwei EreignisseA,B C Q. 
1 P(A) > . Nichtnegativitat 



2. P(S1) = 1 . Normiertheit 

3. P(AUB) = P(A) + P(B) , falls A undBdisjunkt sind. Additivitat 



Dieses Axiomensystem kann nurauf endlich viele Ereignisse angewendet werden. Fur unendlich viele EreignisseAj (i = 1, 2, ...) erhalt man 
statt der endlichen Ereignismenge die a-Algebra. Sie enthalt alle geforderten Eigenschaften der Ereignismenge auf unendlich viele Ereignisse 
Aj ausgeweitet. Hier wird das 3. Axiom entsprechend angepasst: 

3. Sind die EreignisseAj samtlich paarweise disjunkt, ist bei ihrer Vereinigung 
P(A t ljA 2 U As...) = P(,4i) + P{Ai) | P{A A ) | ...,(o-Additivitat). 
Berechnung der Wahrscheinlichkeit eines Ereignisses 

Es mussen nun noch die Ereignisse mit Wahrscheinlichkeiten ausgestattet werden. Auf welche Weise das geschehen soil, ist in den Axiomen 
nicht angegeben. Es gibt hier verschiedene Verfahren. Man erhalt schlieftlich die Wahrscheinlichkeitsverteilung. 

Wie ordnen wir den Ereignissen am besten Wahrscheinlichkeiten zu? 

Betrachten wir im Pizzaecken-Beispiel das Ereignis A: Mindestens ein Mittelstuck. Es ist A = {RM, MR, MM}. A belegt in Q drei von vier 
moglichen Ergebnissen, also ist die Wahrscheinlichkeit P(A) = 3/4. Diese Vorgehensweise entspricht der Klassischen 
Wahrscheinlichkeitsauffassung. Man bezeichnet sie als Symmetrieprinzip oder Prinzip nach LAPLACE: 

Jedes Ergebnis ist gleich haufig. |A| ist die Zahl der Ergebnisse, die durch A belegt werden (Anzahl der gunstigen Ergebnisse), |Q| ist die Zahl 
aller moglichen Ergebnisse. Es ist 

Das Symmetrieprinzip hat allerdings den Nachteil, dass es nicht bei alien Zufallsvorgangen angewendet werden kann, z.B. bei unendlich vielen 
Ergebnissen. Oft ordnet man auch Ergebnissen unterschiedliche Wahrscheinlichkeiten zu, z.B. 

Zufallsvorgang: Wetter von heute. 
Ergebnismenge Q = {schon, schlecht}. 
P(„schon") = 0,6, P(„schlecht") = 0,4. 

Wie kommt man auf diese Wahrscheinlichkeiten 0,4 und 0,6? Man hat in diesem Fall etwa die Wetteraufzeichnungen der letzten 100 Jahre 
ausgewertet und hat festgestellt, dass der Anteil der schonen Tage 60 % betrug. Wir haben hier eine Anwendung der Statistischen 
Wahrscheinlichkeitsauffassung: Man fuhrt ein Zufallsexperiment sehr oft durch. Mit steigender Zahl der Versuche nahert sich der Anteil der 
Versuche, die das Ereignis A hervorgebracht haben, der „wahren " Wahrscheinlichkeit P(A), formal ausgedruckt 

n(A) 



P(A) = \im 



n 

mit n(A) als Zahl der Versuche, die das Ereignis A hervorgebracht haben. Man bezeichnet diesen Zusammenhang als Gesetz der groften 
Zahlen. Er liefert die Begrundung, dass man unbekannte Wahrscheinlichkeiten mit Hilfe von empirischen Beobachtungen schatzen kann, wobei 
hier gilt: Viel hilft viel! 

Bei manchen Fragestellungen versagen die beiden obigen Wahrscheinlichkeitskonzepte. Z.B. bei Ereignissen, die sehrselten auftreten, fur die 
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man also auch keine Versuchsreihen zur Verfugung hat, etwa die Wahrscheinlichkeit fur den Erfolg eines neu auf dem Markt platzierten 
Produkts. Es mochte beispielsweise ein Unternehmen ein neues Spulmittel auf den Markt bringen. Es stent vorder Alternative, Fernsehwerbung 
einzusetzen oder nicht. Es ist mit den Ereignissen konfrontiert: Wenn Fernsehwerbung eingesetzt wird, ist das Spulmittel ein Erfolg/kein Erfolg. 
Wenn keine Fernsehwerbung eingesetzt wird, ist das Spulmittel ein Erfolg/kein Erfolg. Furdiese vier Ereignisse sollen Wahrscheinlichkeiten 
ermittelt werden. Da man keine verlasslichen Informationen daruber hat, wird man aus dem Bauch heraus, eventuell unter Berucksichtigung 
ahnlicher Erfahrungen bestimmte Wahrscheinlichkeiten zuordnen. Dieses Vorgehen entspricht der Subjektiven 
Wahrscheinlichkeitsauffassung. 

Da Ereignisse als Mengen definiert sind, kann man auch in vielen Fallen Ereignisse und ihre Wahrscheinlichkeiten in Venn-Diagrammen 
veranschaulichen. Die Wahrscheinlichkeit ist dann die Flache der entsprechenden Menge. Manchmal ist es hilfreich, das Venn-Diagramm 
ma&stabsgetreu auf kariertes Papier abzutragen, indem die Mengen rechteckig dargestellt werden. 

Pizzeria-Beispiel zur Berechnung von Wahrscheinlichkeiten 

Jetzt schauen wir uns in der Pizzeria etwas genauer urn: Der Inhaber Carlo 
Pommodore ist ein mitleidiger Mensch und duldet auch arme Gaste, die sich nichts 
bestellen. Deshalb ist das Lokal mit seinen 50 Gasten eigentlich schon uberfullt. 20 
Personen haben sich Pizza bestellt und 10 Lasagne. Das Essen ist so reichlich, dass 
niemand zwei Mahlzeiten bestellt. 40 Gaste trinken Wein und 20 Gaste trinken 
Mineralwasser, aber 15 trinken Wasser und Wein. 

Wir Ziehen zufallig einen Gast aus der frohlich larmenden Menge. Wie graft ist die 
Wahrscheinlichkeit, einen Pizza-Esserzu erhalten? 

Wir haben |Q| = 50 verschiedene Ergebnisse. Man kann davon ausgehen, dass jeder 
Gast die gleiche Wahrscheinlichkeit hat, gezogen zu werden. 

Wir definieren nun die Ereignisse: 

A: Der Gast isst Pizza; B: Der Gast isst Lasagne; 
C: Der Gast trinkt Wein; D: Der Gast trinkt Wasser. 

Nach dem Symmetrieprinzip ist 

I 4 1 2fl 2 

[ } |fi| 50 5 ' 
P{C) = \^P{D) = \. 



Wein 






V Lasa 


d^H 


Pizza 


gne 


Wasser 


Aufteilung der Gaste nach Bestellung 



Wir konnen berechnen: 

Wahrscheinlichkeit, dass jemand Wasser und Wein trinkt: 

|CnD| 15 _ 3 

\n\ 50 ~ To ' 



p(C r\D) = 



Wahrscheinlichkeit, dass ein zufallig ausgewahlter Gast kein Wasser trinkt (jj)\ 

^ } |Q| 50 50 5 K } 



Anteil der Leute, die Wasser oder Wein trinken: 
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P(CUI» = P( ) , P( fl )-P( C n B ) = | , »-«_«_£. 

Diese Beziehung gilt immer fur zwei Ereignisse! 
Wahrscheinlichkeit, dass ein Gast Pizza Oder Lasagne isst: 

P(AuB) = P(A) + P(B)-P(AnB) = ^ + ^-0=^. 

Die Mengen A und B sind disjunkt. 

Wahrscheinlichkeit, dass der zufallig ausgewahlte Gast kein Wasser oder keinen Wein trinkt: 

P(CuD)=P(C) + P(D)-P(CnD). 

Hier ist die direkte Berechnung der Wahrscheinlichkeit analog zu oben umstandlich. Man verwendet am besten die 

DE MORGANsche Regel: 

IK **& 

P(C U D) = P(C n D) = 1 - P(C n D) = 1 - — = — = 0, 7. 
Was gelernt werden muss 

Ein Ereiqnis A (AC Q) : 

o < P(A) < 1. 
P(A) = 1 - P(A). 
P(0) = 0. 

Zwei Ereignisse A und B (A,B C Q) : 

A und B sind im allgemeinen nicht disjunkt, also ist die Wahrscheinlichkeit, dass A oder B eintritt, nach dem Additionssatz fur zwei 
Ereignisse: 

P{A U B) = P{A) + P(B) - P(A n B). 

Falls A und B disjunkt sind, ist 

P(AUB) = P{A) + P(B). 

DE MORGANsche Regeln: 

P(A\JB) = P(AnB) 

und 



P(Ar\B) = P(AuB) 

Fur drei Ereignisse A j (i=1, 2, 3) aus Q gilt analog zu obigen Uberlegungen: 

P(Ai UA 2 \J A 2 ) = P{Ai) + P{A 2 ) + P(A 3 ) - P(A t n A 2 ) 

-P{A r n M) - P(A 2 nA 3 ) + P{A 1 n a 7 n a 2 ). 

Mehrere Ereignisse A j (i endlich oder unendlich): 

Sind die Ereignisse A j samtlich paarweise disjunkt, ist bei ihrerVereinigung 
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P(A 1 UA 2 ijA. A ...) =P(A 1 ) | P(A 2 ) | P(A&) I ... 
Ubung 

Zeigen Sie anhand eines Venn-Diagramms die Gultigkeit einer der DeMorganschen Regeln. 



Gemeinsame Wahrscheinlichkeit mehrerer «hochzumAnfangvommhait^eizeichnis 

ErGJCiniSSG « hoch zum Kapitel 1 vom Inhaltsverzeichnis 



1.2. 



Stochastische Unabhangigkeit 

Ein haufiges Untersuchungsobjekt in der Statistik ist, ob verschiedene Ereignisse abhangig oder unabhangig voneinander sind, d.h. ob das 
Zustandekommen eines Ereignisses durch ein anderes begunstigt wird. So untersucht man beispielsweise in der Marktforschung, ob Status 
und Bildung eines Konsumenten die Ausgaben fur eine bestimmte Zeitschrift beeinflussen. 

Beispielzum Beg riff der stochastischen Unabhangigkeit 

Eine umfangreiche Marketingstudie uber Zahnputzgewohnheiten von Konsumenten hat ergeben, 
dass 50 % der Studierenden einer kleinen Hochschule bei ihren Eltern wohnen. Ebenso, dass 
50 % der Studierenden Zahnpasta mit roten Streifen und 50 % andersfarbige Zahnpasta 
bevorzugen . 

Betrachten wir den Zufallsvorgang: Eine Studentin kommt in einen Laden und kauft 
Zahnpasta. Es seien definiert die Ereignisse: 

E: Die Studentin wohnt bei ihren Eltern. 

R: Die Studentin kauft Zahnpasta mit roten Streifen. 

Fraqe: Hat der Wohnort der Studentin einen Einfluss auf die Farbpraferenz? 

Vermutlich nein, die Ereignisse E und R sind stochastisch unabhangig, d.h. in 
wahrscheinlichkeitstheoretischer Hinsicht unabhangig. 

Wir interessieren uns zunachst fur den Wohnort der Studierenden. In der Grafik 1 ist die 
Ergebnismenge nach dem Wohnort aufgeteilt. 

Fraqe: Wieviel Prozent der Studierenden wohnen bei ihren Eltern und werden voraussichtlich 
Zahnpasta mit roten Streifen kaufen? 

Da sich bei Unabhangigkeit der Ereignisse die Studierenden in Bezug auf ihre Farbpraferenz 

gleichmaftig auf die Wohnorte verteilen, werden wohl 50 % der Rotkaufer bei ihren Eltern wohnen und 50 % woanders. D.h. 50 % von 50 % der 

Studierenden wohnen bei ihren Eltern und bevorzugen rote Zahnpasta. Es gilt also: 

P(Rf\E) = 0,5-0,5 =0,25. 

Die Grafik 2 zeigt, wie sich bei Unabhangigkeit der Variablen Wohnort und Farbpraferenz die Wahrscheinlichkeiten der Farbpraferenz auf die 
Wohnorte aufteilen. 

Ist nun beispielsweise P(E) = 40 % und P(R) = 60 %, ergibt sich bei Unabhangigkeit die Aufteilung wie in der Grafik 3, denn auch hier mussten 
60 % der „Nesthocker" und 60 % der „Nestfluchter" gleichermafeen Zahnpasta mit roten Streifen kaufen. 
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Grafik 1 : Die Ereignisse: Studentin w ohnt bei <£P 
den Eltern - Die Studentin w ohnt w oanders 
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Graf ik 2: Die Ereignisse Wohnort und Farbe der 
Zahnpasta durchmischen sich 
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Graf ik 3: Die Ereignisse: Studentin w ohnt bei den Btern - <P 
Die Studentin w ohnt w oanders 



Beispiel zum Beg riff der stochastischen Abhangigkeit 

Oben haben wir den Fall betrachtet, dass zwei Ereignisse unabhangig sind. Im Allgemeinen muss man aber davon ausgehen, dass Ereignisse, 
die man gemeinsam analysiert, abhangig sind. 

Im Rahmen der Marketingstudie wurden Daten eines Gesundheitsamtes in Musterstadt verwendet, die die Zahngesundheit von Schulkindern 
betraf. Man weift aus dieser Studie, dass 50 % der Schulkinder Karies haben und 50 % der Schulkinder sich regelmaftig die Zahne putzen. 

Wir betrachten den Zufallsvorgang: Es wird ein Schulkind zufallig ausgewahlt. 

Wir definieren als Ereignisse 

Z: Das Schulkind putzt sich regelma&ig die Zahne. 
K: Das Schulkind hat Karies. 

1st nun 

P(z n K) > P(z n R) 

Oder P{Z n K) < P(Z n K)? 

1st also die Wahrscheinlichkeit, ein Kind zu erhalten, das sich regelmaflig die Zahne 
putzt und Karies hat, grafter als die Wahrscheinlichkeit, ein Kind zu erhalten, das sich 
regelmaftig die Zahne putzt und keine Karies hat, oder ist es umgekehrt, oder sind 
vielleicht die Wahrscheinlichkeiten gleich? 

Es ist vermutlich 

p(zr\K)<P(zr\K), 

denn Zahneputzen und Karies sind bekanntlich nicht unabhangig voneinander zu 
betrachten. Also sind Z und K stochastisch abhangige Ereignisse. Wir werden 
vermutlich eine Aufteilung der gemeinsamen Wahrscheinlichkeiten erhalten, die ahnlich 
der Grafik 4 ist. Besonders graft sind P(Z (1 K) und P(Z fl K). 

Die gemeinsamen Wahrscheinlichkeiten konnen allerdings nicht mit unseren 
Informationen bestimmt werden, sie hangen von der Starke der Abhangigkeit ab. 

Bei stochastisch abhangigen Ereignissen interessiert man sich haufig fur das 
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bedingteAuftreten eines Ereignisses, z.B. fur die bedingte Wahrscheinlichkeit 

P(K\Z), 

dass ein zufallig ausgewahltes Schulkind Karies hat, wenn man weift, dass es sich nicht regelmaftig die Zahne putzt. 

Bedingte Wahrscheinlichkeiten 
Beispiel 

Einige Jahre spater wurde in der Grundschule von Musterdorf zu Forschungszwecken 
wieder an 200 Kindern eine Rei hen untersuc hung zur Zahngesundheit durchgefuhrt. 
Jetzt putzten sich 60 % der Kinder regelma&ig die Zahne. Von diesen Kindern hatten 
40 Karies. Bei den Zahnputzmuffeln hatten 60 Kinder Karies. 

Wirwollen ein maftstabsgetreues Venndiagramm konstruieren. Jedes Kastchen steht 
fur 5 Kinder. Es sind 



Putzt Ziitine Putztwenig Zahne 

z z 

«S€% 40% 



F(Z) = 0,6; P(Z) =0,4; 

P{Z n K) = 0,2; P(ZnA') = 9,4; 

p(zr\K) = o& P(znK) =o,i. 



Wir interessieren uns nun fur die bedingte Wahrscheinlichkeit, dass ein Kind Karies 
hat, wenn bekannt ist, dass es sich die Zahne putzt: 

P(K\Z). 

In andere Worte gekleidet: Der Anteil der Kinder mit Karies an den Kindern, die 
sich regelmaftig die Zahne putzen. 

Es gilt fur die bedingte Wahrscheinlichkeit 
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Wie hangen Kariesfalle und Zahnputzgewohnheit 
zusammen? 



P(K\Z) = 



P{K n z) 



Wie ist diese Wahrscheinlichkeit zu verstehen? 

Es werden zunachst alle Kinder, die sich regelmafeig die Zahne putzen, in die Aula geschickt. Aus diesen 120 Kindern wird nun zufallig eins 
ausgewahlt. Mit welcher Wahrscheinlichkeit hat dieses Kind Karies? Wir betrachten also 120 zahnputzende Kinder, davon haben 40 Kinder 
Karies. 

Genau diese Vorgehensweise ist das Prinzip der bedingten Wahrscheinlichkeiten! 

10 1 
120 ~ 3' 

Ein Drittel der zahneputzenden Kinder hat Karies: Dann haben naturlich zwei Drittel der zahneputzenden Kinder keine Karies. Wir sehen 
sogleich, dass die obige Rechnung die schon bekannte Formel 



Esergibtsich:p(/<|^ = 



P(K\Z) = 



p(Knz)_§; 



40 



P(Z) 

darstellt. Entsprechend erhalten wir 
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P{K\Z) = 



P(RnZ) 
P{Z) 



20 

2(H) 

go 

200 



Vergleichen Sie das Venndiagramm mit dem vorhergehenden! Wieso unterscheiden sich beide Diagramme? 

Ubung 

Es ist bekannt, dass die Aktienkurse des Unternehmens Dachs an 55% aller Borsentage gestiegen sind. 

Ereiqnisse : K<|: Der Kurs steigt am ersten Tag K 2 : Der Kurs steigt am zweiten Tag 

Man hat folgende GesetzmaGigkeit der Kursentwicklung festgestellt: In 40 % aller Beobachtungen stieg der Kurs am ersten Tag und am zweiten 
Tag, in 15 % der Beobachtungen stieg der Kurs am ersten Tag und fiel am zweiten Tag. Dagegen fiel in 15 % der Beobachtungen der Kurs am 
ersten Tag und stieg am zweiten Tag. An den restlichen Tagespaaren fiel der Kurs an beiden Tagen. 

1. Stellen Sie die gemeinsamen Wahrscheinlichkeiten im Venndiagramm grafisch dar. 

2. Sind die Ereignisse K-| und K 2 stochastisch unabhangig? (Begrunden Sie die Antwort formal mit Hilfe der Wahrscheinlichkeitstheorie.) 

3. Am heutigen Tag ist der Kurs gestiegen. 

• Mit welcher Wahrscheinlichkeit wird er morgen steigen (Gesucht: P(K2|K-|))? 

• Mit welcher Wahrscheinlichkeit wird er dagegen fallen? 

4. Mit welcher Wahrscheinlichkeit wird der Kurs morgen steigen, wenn er heute gefallen ist? 

Bayessches Theorem 

Haufig liegen die Informationen uber zwei Ereignisse nur als bedingte Wahrscheinlichkeiten vor. Wie kann man sie weiter verwenden? 
Beispiel fur zwei Ereignisse 

Ein bekannter Vergnugungspark verbraucht taglich grofte Mengen an Gluhbirnen fur die Dekoration der Stande. Damit die Verbrauchskosten 
nicht so hoch werden, setzen sich die Gluhbirnen nurzu 60% aus Markenware und zu 40 % aus markenfreier Ware zusammen. Aufgrund 
langjahriger Beobachtungen weife man, dass von den Marken-Gluhbirnen pro Monat 5% defekt werden. Jedoch werden von den markenfreien 
Gluhbirnen monatlich 10% defekt. 

Zunachst wollen wir das Gegebene grafisch (Grafik 5) darstellen: Wenn von den Markengluhbirnen 5 % defekt werden, bleiben 95% heil. 5% ist 
also Anteil der defekten Gluhbirnen an den Markengluhbirnen, d.h. es handelt sich urn die bedingte Wahrscheinlichkeit P(D|M) usw 

Der Betreiber des Vergnugungsparks braucht fur die Kostenplanung des nachsten 
Sommers die Information, wie grofc der Anteil der Markengluhbirnen an den defekten 
Gluhbirnen ist, d.h. ersucht P(M|D). Das bedeutet: Alle defekten Gluhbirnen eines 
Tages werden in einem Korb gesammelt. Eswird eine Gliihbirne zufallig 
entnommen. Mit welcher Wahrscheinlichkeit erhalt man eine Markenbirne? 



Wirwissen, dass gilt: 



P(M\D) = 



P(MnD) 

P(D) 



Leidersind aberdie Komponenten des Bruchs unbekannt. Wir werden nun eine 
Methode finden, sie doch zu berechnen. 

Zunachst suchen wir den Zahler P(M fl D): Wir kennen P(D|M). Bekanntlicherweise berechnet es sich als 
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Grafik 5 




<P 



P{D\M) = 



P(MPiD) 



P(M) 

Also ist der gesuchte Zahler auch in P(D|M) enthalten und kann ganz einfach durch Auflosung der Gleichung berechnet werden als 

P(M HD)= P{D\M)P{M). 

also 

P(MHD) = 0,05 -0,6 = 0,03- 
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0,04 + 0,03 



Jetzt fehlt noch der Nenner P(D). Betrachten wir das Venndiagramm Grafik 6. D setzt sich aus den Schnittmengen J) f] j\/ und J) p ][<f 
zusammen. 

Die gesamte Wahrscheinlichkeit von D ist also die Summe 

P(D) = P(M n D) | P(M n D) 

eine Erkenntnis, die man auch als Satz der totalen Wahrscheinlichkeit bezeichnet, und 
das gibt, wie wir oben gesehen haben, 

P(D) = P(D\M)P(M) + P(D\M)P(M), 

in unserem Beispiel 

P(D) = 0,05 ■ 0,6 + 0,1 ■ 0,4 = 0,07- 

Es sind also 7% aller Gluhbirnen defekt. 

Die gesuchte bedingte Wahrscheinlichkeit ist nun 

P(MnD) P(D\M)P(M) 




Grafik 6 



P(M\D) = 



P(D) P{D\M)P{M) | P{D\M)P{M) 



Diese Formel wird als Bayessches Theorem bezeichnet. 
Die gesuchte Wahrscheinlichkeit betragt 

P{M\D) = £j| = 0,4286- 

Diese Wahrscheinlichkeit fallt deshalb so uberraschend hoch aus, weil 50% mehr Markenbirnen als markenfreie verwendet werden. 
Entsprechend ist der Anteil der markenfreien Gluhbirnen an den defekten 0,5714. 

Wirwollen nun mehr als zwei Ereignisse analysieren. 

Beispiel fur mehr als zwei Ereignisse 

Eine Spedition beschaftigt drei LKW-Fahrer, die Herren Ahorn, Behorn und Zehorn. Ahorn fahrt 50% aller Fuhren, Behorn 20% und Zehorn 30%. 
Aus Erfahrung weife man, dass Ahorn bei 10% aller Fahrten eine Beule verursacht, Behorn bei 15% aller Fahrten und Zehorn bei 20% aller 
Fahrten (Grafik 7). 

Wir definieren die Ereignisse: 

F-|: Ahorn ist gefahren, F 2 : Behorn ..., F 3 : Zehorn ... 

B: Eine Beule wurde gefahren. 

Wirwollen zuerst das Gegebene festhalten: Wenn Ahorn in 10 % aller Fahrten eine Beule fahrt, wickelt er die restlichen 90 % ohne Schaden ab 
usw 

Man interessiert sich fur die Wahrscheinlichkeit, dass Ahorn gefahren ist, wenn wieder 
ein Mai eine Beule in einem LKW auftaucht, d.h. fur P(F-j|B). 



Es ist wieder 



P(Fi\B) 



P(FjnB) 

P(B) 



Nach dem Multiplikationssatz der Wahrscheinlichkeiten muss 

P(F 1 nB) = P(B\F 1 )P(F 1 ) 

sein, also 

P(F 1 nB) = 0,1 -0,5 = 0,05- 

Aber wie erhalten wir P(B)? Auch hier gilt wieder der Satz von der totalen 
Wahrscheinlichkeit, z.B.: 
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P(F 1 r\B)=P(B\F 1 )-P(F 1 ). 

Wir erhalten dann fur P(B) 

p{B) = P{F 1 ns) + P(F 2 r\B) + P(Fz n B) 

= P(B | Fi)P(Fi) + P(£ | F 2 )P(F 2 ) + P(5 | F 3 )P(F 3 ) , 
also 

P{S) = 0,1 ■ 0,5 I 0,15-0,2 I 0,2-0,3 = 0,05+0,03 + 0,06 = 0,14. 

Unsere gesuchte Wahrscheinlichkeit betragt 

^^■^ PiFiDB) 0,05 

Entsprechend sind 

n^ilB) = ^ = 0,2143 

und 

F(F 3 |B) = ^ = 0,4286 

Also hat Zehorn mit gro&ter Wahrscheinlichkeit die Beule gefahren. 
Wir fassen nun das Gelernte dieser Seite zusammen: 

Theoretische Erkenntnisse 

Zwei Ereiqnisse A und B aus Q : 

Sind zwei Ereignisse A und B stochastisch unabhangig, ist ihre gemeinsame Wahrscheinlichkeit gleich dem Produkt der 
Einzelwahrscheinlichkeiten: 

P{Ar\B) = P(A)-P(B). 

Man beachte: Ereignisse sind grundsatzlich nicht als unabhangig zu betrachten! 
Die bedingten Wahrscheinlichkeiten fur A und B sind 

Allgemeiner Multiplikationssatz der Wahrscheinlichkeiten: 

P(A HB) = P(A\B)P(B) = P(B\A)P(A) 

Theorem von BAYES: 

f(^nfl) _ P(A\B)P(B) 

K ' } P{A) ~ P(A\B)P(B) + P(A\B)P(B) 

Verallqemeinerunq fiir m Ereiqnisse A j (i =1 m) : 

Diese m Ereignisse zerlegen die Ergebnismenge, d.h. sie sind disjunkt und fallen Q aus. Enthalt Q noch ein Ereignis B, so schneidet B 
mindestens ein Ereignis Aj, und B ist dann 

P(B) = P{A 1 r\B) + P(A 7 n B) + . . . + P(A m n B). 

Es gilt hierdas Bayessche Theorem: 

P{AnS) P{B\A i )P{A i ) 



P{A,\B) 



P(B) " E™ =1 P(B\ ADPiAj) 
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Ubung: 

Was ist P(A|B), falls A und B disjunkt sind? 

Was ist P(A|B), falls A und B stochastisch unabhangig sind? 

Losungen der Ubungen 
Beispiel mitden Kursverlaufen 

1. Darstellung der verschiedenen Wahrscheinlichkeiten 
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2. Bei stochastischer Unabhangigkeit musste die gemeinsame Wahrscheinlichkeit gleich dem Produkt der Einzelwahrscheinlichkeiten sein. 

P(Ki n K 2 ) = 0,4, 

aber 

P{K y ) ■ P(K 2 ) = 0,55 ■ 0,55 ^ 0,4. 

Also sind die Ereignisse stochastisch abhangig. 

3. Es ist 

Ki n K 7 0,4 



P(K 2 \Ki) = 



und 



P(K 2 \Ki) = 



I<! 0,55 

K j n K 2 0,15 
Ki ~ 0,55 



PiK \k ) - Kl n K * - °' 15 

Ubungen zu Theoretische Erkenntnisse 

Ldsung: 0; P(A). 



1 .3. Kombinierte Zufallsvorgange 

Kombinierte Zufallsvorgange (insbesondere wiederholte oder mehrfache Versuche). 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 1 vom Inhaltsverzeichnis 



Allgemeines 

Beispiele fiir kombinierte Zufallsvorqanqe: 

• Eine Munze werfen, dann einmal wurfeln. 

• Aus einer Urne ohne Zurucklegen 3 Kugeln Ziehen. 
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• Aus einer Lostrommel 10 Gewinner Ziehen. 

• Gewinnspiel: Aus drei Toren eines wahlen. Falls richtiges Tor, Wahl zwischen zwei Umschlagen. 

• 5x auf ein Ziel schieften. 

Beispiel fur die formale Definition 

Es sollen nacheinander drei Zufallsexperimente durchgefuhrt werden. Die Wahrscheinlichkeit, dass beim ersten Versuch das Ereignis A, beim 
zweiten Versuch das Ereignis B und beim dritten Versuch das Ereignis C resultiert, wird bezeichnet als P(A( 1 ) A B^ 2 ) A C^ 3 )). A, B und C 
konnen verschiedenen Ergebnismengen entstammen! Der hochgestellte Index kann unter Umstanden weggelassen werden. 

Beispiel fur unabhangige Versuche 

Wir betrachten den Zufallsvorgang: Wir werfen zuerst eine Munze und wurfeln dann. 
Die beiden Versuche haben jeweils die Ergebnismenge 

Q M = {Wappen (W); Zahl (Z)} bzw. Q w = {1,2,3,4,5,6} 
Es ergibt sich fur diesen kombinierten Versuch die Ergebnismenge Q* als kartesisches Produkt von Qm und Qyv : 

Q* = {(W; 1), (W; 2), (W; 3), ... , (W; 6), (Z; 1), (Z; 2), ..., (Z; 6)}. 
Q* hat 12 Elemente. Jedes Element hat die selbe Wahrscheinlichkeit, gezogen zu werden. 

Wir suchen nun die Wahrscheinlichkeit fur das Ereignis A*: Es wird erst Wappen geworfen und dann mindestens Funf (F) gewurfelt: 
Das Ereignis A* = wC) A F^ 2 ) belegt in Q* 2 Elemente. Wirerhalten dann fur die Wahrscheinlichkeit nach dem Symmetrieprinzip 



P(A*) = P(W (1) A F (2) ) = y 2 = \ 



Wurfeln und Munzwurf sind jedoch stochastisch unabhangig und die Wahrscheinlichkeit muss nicht umstandlich uberdie Ergebnismenge 
ermittelt werden. Also ist dann 



P(A*) = F(W*>) - P(F&) = 1-| = 1 



Ubunq 

Sie wurfeln 3 mal. Mit welcher Wahrscheinlichkeit erhalten Sie zuerst zwei mal Sechs und dann hochstens Zwei? 

i 

Losung: . 

108 

Wiederholte Versuche konnen aber oft stochastisch abhangig sein. 

Aus einer Urne mit 2 roten und 1 schwarzen Kugeln sollen zwei Kugeln ohne Zurucklegen gezogen werden. 

Das zweite Ergebnis ist vom ersten naturlich nicht mehr unabhangig, weil sich je nach erster gezogener Kugel der Inhalt der Urne andert. Es 
sei: R: eine rote Kugel wird gezogen und S: eine schwarze Kugel wird gezogen. 

Wir wollen zuerst die Ergebnismenge der abhangigen Versuche analysieren. Nummerieren wir die beiden roten Kugeln in R-| und R2. Man kann 
dann bei zwei mal Ziehen folgende Ergebnisse erhalten: 

Q* = «R 1; R 2 ), (R 1; S), (R 2 ; R^, (R 2 ; S), (S; R^, (S; R 2 )} 
Q* hat insgesamt 6 Ergebnisse. 

Wir definieren das Ereignis A: Zuerst wird eine rote (R), dann eine schwarze Kugel (S) gezogen, also A = R^ 1 ) A S^ 2 ). 
Es gibt in Q* zwei Ergebnisse, die A betreffen, also ist die Wahrscheinlichkeit 
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Dieses Beispiel war einfach. Aber kann jetzt bei abhangigen Versuchen auch die Wahrscheinlichkeit fur das kombinierte Ereignis unter Verzicht 
auf die vollstandige Darstellung der Ergebnismenge bestimmt werden? 

Bei stochastisch abhangigen Versuchen konnen die Wahrscheinlichkeiten nicht mehr ohne weiteres als Produkt der Einzelwahrscheinlichkeiten 
der Ereignisse bestimmt werden. Man kann aber sukzessiv den Multiplikationssatz der Ereignisse anwenden, der von den bedingten 
Wahrscheinlichkeiten bekannt ist: P(AflB) = P(A)-P(B|A). Die Wahrscheinlichkeit, dass beim ersten Mai A und beim zweiten Mai B resultiert, 
ist also 

P(A W A B (2) ) = P{A (1) ) ■ P(B^\A W ) 

Es ist nach der obigen Formel 

P(A) = P(fl?> n S <2) ) =p(r^) -P(S <2) \R (1) ) 

2 1 1 

3 '2 ~ 3 

Beim ersten Versuch sind 3 Kugeln in der Beim zweiten Versuch sind noch 2 Kugeln in der 
Urne; zwei sind rot Urne; eine ist schwarz. 

Diese Regel lasst sich auch auf mehr als zwei Ereignisse erweitern: 

Beispiel 

Aus einer Urne mit 10 roten (R) und 5 schwarzen (S) Kugeln sollen ohne Zurucklegen nacheinanderdrei rote Kugeln gezogen werden. Die 
Wahrscheinlichkeit dafur ist 

v ' 15 14 li 

Fur mehr als zwei Ereignisse kann derallgemeine Multiplikationssatz der Wahrscheinlichkeiten angewendet werden. Er gilt auch fur 
Ereignisse, die nicht aus einer gemeinsamen Ergebnismenge stammen: 

P{A& A A^ A ■ ■ ■ A a^) = P(AW) ■ P(A&>\AW) ■ p(aw\aw a a®) ■ ... 

... ■ P(A^\AW a a® A ... A A( m -V). 

Falls die A(i) (i = 1, 2, ... ,m) stochastisch unabhangig sind, ist naturlich wieder 

P(AW A A {2] A ■ ■ ■ A A im) ) = P(yl fl) ) ■ P{A i2) ) P(A (m} } 

Je nachdem, wie die Problemstellung ist, gibt es fur die Berechnung von Wahrscheinlichkeiten kombinierter Zufallsvorgange also verschiedene 
Moglichkeiten: 

1. Wir bestimmen alle Elemente von Q*, falls das moglich und durchfuhrbar ist. Dann wenden wir das Symmetrieprinzip an. 

2. Wir uberlegen uns, beispielweise mit Hilfe der Kombinatorik, die Zahl der Elemente in Q* und wenden dann das Symmetrieprinzip an. 

3. Wirverwenden den allgemeinen Multiplikationssatz der Wahrscheinlichkeiten und konnen vielleicht sogar stochastische 
Unabhangigkeiten ausnutzen. 

Urnenmodelle 

Bei wiederholten Versuchen greift man haufig auf das so genannte Urnenmodell zuruck: Dieses Modell funktioniert im Prinzip folgendermaflen: 
Eine Urne enthalt N viele Kugeln, die sich voneinander unterscheiden lassen. Es werden n viele Kugeln gezogen. Man interessiert sich fur die 
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Zahl von Kugeln mit einem bestimmten Merkmal unter den n gezogenen. 

Wir unterscheiden grundsatzlich 

• das Urnenmodell mit Zurucklegen: Eine Kugel wird gezogen und wieder zuruckgelegt 

• das Urnenmodell ohne Zurucklegen: Eine Kugel wird gezogen und nicht wieder zuruckgelegt 

Viele Zufallsvorgange, speziell die wiederholter Versuche, konnen aufdas Urnenmodell zuruckgefuhrt werden. Den Anfanger mag die 
Vorstellung, eine Kugel zu Ziehen und wieder zuruckzulegen, eigenartig anmuten, aber so kann man unabhangige Versuche modellieren: 
Betrachten wir den Zufallsvorgang, zwei mal zu wurfeln, so kann man stattdessen auch aus einer Urne mit 6 verschiedenen Kugeln zwei mal 
jeweils eine Ziehen und wieder zurucklegen. 

Kombinatorik 

Wir haben eine Urne mit N Kugeln gegeben. Es sollen n Kugeln gezogen werden. Wir befassen uns nun mit der Zahl der moglichen Ergebnisse 
bei wiederholten Versuchen. Hier mussen wir die verschiedenen Arten derAnordnung gezogener Kugeln im Urnenmodell berucksichtigen. 

Zur Verdeutlichung dieserAufgabenstellung betrachten wir eine Urne mit 3 Kugeln A, B, C. Es sollen n = 2 Kugeln gezogen werden. Wie viel 
verschiedene Paare wiirden wir erhalten? 

Wir unterscheiden die Aufgabenstellungen 

Mit Wiederholung - Mit Berucksichtigung der Reihenfolge 

Die Buchstaben werden mit Zurucklegen gezogen; ein Buchstabe kann also mehrmals im Paar auftauchen. Es kommt auf die Reihenfolge der 
Buchstaben an. Es sind folgende verschiedene Paare moglich: 

(A,A), (A,B), (A,C), (B,A), (B,B), (B,C), (C,A), (C,B), (C,C). 

Es gibt insgesamt N n viele verschiedene Ergebnisse, wie man leicht sieht. 

Mit Wiederholung -Ohne Berucksichtigung der Reihenfolge 

Es sind folgende verschiedene Paare moglich: 
(A,A), (A,B), (A,C), (B,B), (B,C), (C,C). 



fN + n-l 



Es gibt insgesamt ] viele verschiedene Ergebnisse. 

\ n 

Ohne Wiederholung - Mit Berucksichtigung der Reihenfolge 

Die Buchstaben werden ohne Zurucklegen gezogen; ein Buchstabe kann nur einmal im Paar auftauchen. Es sind folgende verschiedene Paare 
moglich: 

(A,B), (A,C), (B,A), (B,C), (C,A), (C,B). 

N\ 

Es gibt insgesamt viele verschiedene Ergebnisse. 

(N — n)\ 
Ohne Wiederholung - Ohne Berucksichtigung der Reihenfolge 

Es sind folgende verschiedene Paare moglich: 
(A,B), (A,C), (B,C). 



(> 



Es gibt insgesamt I | viele verschiedene Ergebnisse. 

Ubungsbeispiel 
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Aus vier Personen Anna (A), Balduin (B), Cacilie (C), Dagobert (D) werden zwei zum Geschirrspulen ausgelost, wobei eine Person abspult und 
eine abtrocknet. 

Handelt es sich um ein Modell mit oder ohne Zurucklegen? Theoretisch ware auch ein Modell mit Zurucklegen denkbar. Da das aber als unfair 
empfunden wird, gehen wir vom Modell ohne Zurucklegen (M. o. Z.) aus. 

• Mit welcher Wahrscheinlichkeit erwischt es zuerst Cacilie und dann Balduin (Ereignis E)? 
Hier kommt es auf die Reihenfolge der gezogenen „Kugeln" an. 



Methode a: Direkt uber die Erqebnismenqe 
Die Ergebnismenge ergibt Q* = 



- 


(A,B) 


(A,C) 


(A,D) 


(B,A) 


- 


(B,C) 


(B,D) 


(C.A) 


(C,B) 


- 


(C,D) 


(D.A) 


(D.B) 


(D,C) 


- 



Jedes Paar hat die gleiche Wahrscheinlichkeit, gewahlt zu werden. Es gibt insgesamt |Q*| = 12 verschiedene Paare. 



P(E) = P((C,B)) = 



1 

12 



Methode b: Uber die Zahl der Erqebnisse Es handelt sich um ein Modell ohne Zurucklegen mit Beachtung der Reihenfolge. Es gibt 

Nl 4! 1 ■ 2 ■ 3 ■ 4 

= 12 



(N-n)\ (4-2)! 2 

verschiedene Paare. Es gibt nur ein Ergebnis fur das Ereignis E. Es ist also 

\e\ ' i 



P(E) = 



\n*\ 12 



Methode c: Uber den Multiplikationssatz der Wahrscheinlichkeiten 



P(C w nB< 2) ) 



1 1 1 

4 ' 3 = 12 



• Mit welcher Wahrscheinlichkeit mussen die zwei Manner abwaschen (Ereignis F)? 

Methode a: 

Es ist F = {(B,D), (D,B)}. Dieses Ereignis belegt in Q* zwei Elemente. Also ist 



Methode b: 

M.o.Z, ohne Beachtung der Reihenfolge. Es gibt 
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CO 



A r ! 



1-2-3-4- 



n\(N-n)l (1 ■ 2)<1 ■ 2) 



verschiedene Paare . Es ist also P(F) = — 



Methode c: 



1 } 4 3 6 



2. 



Zufallsvariablen 



« hoch zumAnfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 2 vom Inhaltsverzeichnis 



Beispiel zum Begriff der Zufallsvariablen 

Die frankische Druckerei Printzig nennt 10 multifunktionelle Hochleistungsdrucker ihr eigen. Drei Druckersind von der Firma Alpha, zwei sind 
von Beta, vier von Gamma und einer stammt von der Firma Delta. Da die Drucker auch von Kunden bedient werden, fallen sie aufgrund 
unsachgema&er Handhabung haufig aus. Man hat festgestellt, dass alle Drucker in gleichem Mafle anfallig sind. Wegen der Gewahrlei stung 
wird bei jedem Ausfall ein Wartungstechniker der betreffenden Firma geholt. Die Kosten fur die Wiederherstellung eines Druckers hangen vom 
Hersteller ab, wobei die Drucker der Firma Gamma in der Reparatur am billigsten sind. 

Am liebsten ist es naturlich Herrn Printzig, wenn ein Drucker mit den geringsten Reparaturkosten ausfallt. 

Uberlegen wir: 

Welche Ergebnismenge gehort zu dem Zufallsvorgang: Ein Drucker fallt zufallig aus? 

Mit welcher Wahrscheinlichkeit entstehen Herrn Printzig die geringsten Kosten? 

Wir erhalten die Ergebnismenge 

Q = {A<|, A 2 , A 3 , B-i, B 2 , G-|, G 2 , G 3 , G 4 , D^, 

wobei z.B. B 2 Drucker Nr. 2 der Firma Beta bedeutet. G sei das Ereignis, die geringsten Reparaturkosten zu haben. Jeder Drucker hat die 
gleiche Wahrscheinlichkeit, auszufallen. Dann ist nach dem Symmetrieprinzip 

Zahl der G-Drucker 



P(G) = 



Zahl allcr Drucker 

Die Kosten fur die Reparatur eines Druckers betragen je nach Hersteller wie folgt: 



\G\ 4 

- — - = — = 4 

|Q| 10 ' 



Hersteller 


Alpha 


Beta 


Gamma 


Delta 


Kosten (Euro) 


50 


60 


30 


100 



Uberlegen wir: Wieviel muss Herr Printzig pro Ausfall im Durchschnitt bezahlen? 
Ordnen wir nun der Ergebnismenge die entsprechenden Kosten zu: 



A1 


A 2 


A3 


B1 


B 2 


Gl 


G 2 


G 3 


G 4 


D 1 


i 


1 


1 


I 


1 


1 


1 


i 


1 


1 


50 


50 


50 


60 


60 


30 


30 


30 


30 


100 



Q hat 10 Ergebnisse und jedes Elementarereignis hat die Wahrscheinlichkeit 1/10. Jeder Drucker fallt dann auch mit der Wahrscheinlichkeit 
1/10 aus. Die durchschnittlichen Reparaturkosten sind also 
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50- i + 50- ^ + 50- ^ + 60.^ + 60.^ + ... + 100 . X 
= 50-^ + 60-^ + 30-^ + 100.^ 

= ^ + ^+^+^ = ^ = 49Euro 

Wir haben soeben eine Zufallsvariable konstruiert und zwar, indem wir alien Ergebnissen von Q eine Zahl zugeordnet haben. 

Den Durchschnitt konnten wir erst berechnen, nachdem wir die Drucker mit einer Zahl versehen hatten. Man kann je nach Interesse den 
Elementarereignissen beliebige Zahlen zuordnen. So konnten fur die laufende Wartung wieder ganz andere Kosten gelten. Nur die 
Ergebnismenge ist festgelegt. Man konnte nun die Wahrscheinlichkeit berechnen, dass bei einem Ausfall 60 Euro fallig werden: Es gibt 10 
Elementarereignisse und zwei davon entsprechen 60 Euro. Also betragt diese Wahrscheinlichkeit 2/10. 

Wir bezeichnen eine Zufallsvariable mit einem groften Buchstaben. Die Werte, die eine Zufallsvariable annehmen kann, nennt man Auspragung. 
Eine bestimmte Auspragung kennzeichnen wir mit einem Kleinbuchstaben. Nennen wir unsere Zufallsvariable „Reparaturkosten" X Wirfassen 
jetzt die verschiedenen Wahrscheinlichkeiten derZufallsvariablen Xin einer Wahrscheinlichkeitstabelle zusammen. Herr Printzig hat 4 mal die 
„Chance", 30 Euro zu bezahlen, also ist die Wahrscheinlichkeit, dass X= 30 ist, gleich 4/10, usw 

Wahrscheinlichkeitstabelle: 





*1 


*2 


*3 


x 4 


Auspragung Xj 


30 


50 


60 


100 


Wahrscheinlichkeit 

f(Xj) 


0,4 


0,3 


0,2 


0,1 



f(x) bezeichnet die zur bestimmten Auspragung x gehorende 
Wahrscheinlichkeit. Es ist beispielsweise 

P(X=60) = f(x 3 ) = f(60)=0,2, 
aber 

P(X=70) = f(70) = 0, 
denn furX= 70 existiert kein Ergebnis. 
Die Summe aller Wahrscheinlichkeiten ist 



£/G*) = i 



Wahrscheinlichkeitsfunktion von X 



Q n 5 

4 








0,3 




1 








Q n 1 






III 


1 





10 20 30 40 50 &0 70 SO 90 100 110 120 



Wahrscheinlichkeitsfunktion von X: Reparaturkosten 



i=l 

Man kann diese Wahrscheinlichkeiten auch grafisch als 
Stabdiagramm darstellen. 

Man sieht, dass an den x-Stellen 30, 50, 60 und 100 die 
Wahrscheinlichkeitsfunktion die Werte 0,4, 0,3, 0,2 und 0,1 annimmt, 
aber an alien sonstigen Werten von x Null ist. 

Wie graft ist nun aber die Wahrscheinlichkeit, dass Herr Printzig 
hochstens 50 Euro bezahlen muss? 

P(X< 50) = P(X= 30) + P(X= 50) = 0,4 + 0,3 = 0,7. 

Das kann man auch aus der Graphik ersehen: Es ist die Summe der „Stabchen" fur x < 50. 

Mit welcher Wahrscheinlichkeit muss Herr Printzig weniger als 100 Euro zahlen? Gefragt ist hier nach P(X< 100). Ein Blick auf die Grafik verrat 
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uns, dass gilt 

P(X< 100) = P(X< 60) = P(X= 30) + P(X= 50) + P(X= 60) = 0,4 + 0,3 + 0,2 = 0,9. 




X ^ 50 X<100 

Wieviel ist nun P(30 < X< 60)? 

Man kann hier wieder die „Stabchenmethode" anwenden: 

P(30<X<60) = 0,3+0,2 = 0,5. 
Es gibt aber auch eine Rechenregel, die man mit Hilfe der Grafik leicht erkennt: 

P(a<X<b)= P(X<b)-P(X<a), 
also 

P(30 < X< 60) = P(X< 60) - P(X< 30) = 0,9 - 0,4 = 0,5. 

Die Wahrscheinlichkeiten P(X< a) einer bestimmten Auspragung a von Xbilden die Verteilungsfunktion von X die die 
Wahrscheinlichkeitsverteilung von Xin eindeutiger Weise beschreibt. Das ist eine Festlegung, die die Statistiker als sinnvoll erachten. Die 
Verteilungsfunktionen werden grossbuchstabig als F(a) bezeichnet. Meist wird statt a das Symbol x verwendet. Wir wollen die 
Verteilungsfunktion konstruieren, indem wir die obige Graphik zu Hilfe nehmen und fur einzelne Stutzwerte x die Verteilungsfunktion berechnen. 

Wie graft ist z.B. P(X< 10)? Es ist P(X< 10) = F(10) = 0. 

Ebenso sind P(X< 15) = und P(X< 20) = 0. 

Es ist also F(a) = fur alle Werte von a mit - °° < a < 30. 

Als nachstes untersuchen wir P(X< 30): 

P(X< 30) = F(30) = 0,4 . Ebenso sind P(X< 30,1) = 0,4 und P(X< 49,99999) = 0,4. 

Die Verteilungsfunktion hat also den Wert F(a) = 0,4 fur 30 < a < 50. 

Es gilt weiter: P(X< 50), P(X< 59), ... P(X< 60) sind, siehe Graphik: 0,4 + 0,3 = 0,7. 

Schliefclich ist die Wahrscheinlichkeit P(X< 100) Oder auch P(X< 110), P(X< 1000) usw... gleich 1. 
Wir konnen die Wahrscheinlichkeiten zusammenfassen in der Verteilungsfunktion 
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P(X < a) = F{a) = < 



u rur a <-. ou 

0,4 fiir30<a<50 

0, 7 fiir 50 < a < 60 

0, 9 fiir 60 < a < 100 

1 fiir a > 100 



Verteilungsfunktion von X 


1i2 
1 
0,8 
*0^ 

M 
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Verteilungsfunktion von X: Reparaturkosten 



Man sieht, dass diese Verteilungsfunktion grafisch eine Treppenfunktion 
darstellt. Die Punkte links an den Stufen zeigen an, dass der Funktionswert 
dieser Stufe genau zum Punkt a gehort. 

Man kann hier auch die Wahrscheinlichkeiten der Grafik entnehmen, z.B. ist 
P(X<70) = 0,9. 

Besonders interessiert man sich bei einerZufal Is variable furzwei Kennwerte, 
Parameter genannt, die die Zufal Is variable genauer beschreiben. 

Einer ist der durchschnittliche Wert, den die Zufallsvariable „auf lange Sicht" annimmt, wenn der Zufal Is vorgang „sehr oft" durchgefuhrt wird. 
Dieser Parameter wird Erwartungswert EX genannt, also der Wert, den man langfristig erwarten kann. Wir hatten inn schon oben ermittelt als 

EX = m .* j + 60 .l )l30 .± jim .± j = 49 

die durchschnittlichen Reparaturkosten. 

Ein weiterer Parameter ist die Streuung der X, ein MaG, wie stark die einzelnen Werte von X von EXabweichen, also 30-49, 50-49, 60-49, 100- 
49. Da z.B. 100 viel seltener auftritt als 30, gewichtet man auch diese Abweichungen mit ihrer Wahrscheinlichkeit. Eine Quadrierung sorgt dann 
einerseits dafur, dass sich positive und negative Abweichungen nicht aufheben, andererseits fur eine uberproportionale Berucksichtigung von 
besonders starken Abweichungen. Man erhalt im Ergebnis als durchschnittliche quadratischeAbweichung derX-Werte von EX die Varianz 

VarX = (30-49) 2 -0,4 | (50-49) 2 -0,3 

+(60 - 49) 2 0,2 + (100 - 49) 2 ■ 0, 1 
= 361-0,4+1-0,3 I 121-0,2 | 2601 ■ 0, 1 = 429 

wobei zu beachten ist, dass sich hier als Einheit Euro 2 ergibt. 

Die Wurzel der Varianz ist die Standardabweichung; man konnte sie salopp als mittlereAbweichung derAuspragungen vom Durchschnitt 
bezeichnen. Sie betragt in unserem Beispiel etwa 20,71. 

Allgemeine Darstellung einer Zufallsvariablen 

Gegeben ist ein Zufal Isvorgang mit der Ergebnismenge Q. Jedem Element aus Q wird eine reelle Zahl x zugeordnet: 

Die Elemente von Xsind Realisationen, Auspragungen, Werte. Die Verteilung der Zufallsvariablen kann festgelegt werden mit ihrer 
Verteilungsfunktion F, definiert als 

F{x) = P{X < x) 

Es gilt fiir die Verteilung jeder Zufallsvariablen: 

• F(x) ist fiir alle x 6 J| definiert. 
. < F(x) < 1 . 

• F(x) ist monoton steigend, also x-| < X2 — »• F(x-j) < F(x2) 

• F(x) ist rechtsseitig stetig. 

• P(a < X< b) = P(X< b) - P(X< a). 
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2.1. 



Diskrete Zufallsvariablen 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 2 vom Inhaltsverzeichnis 



Eine Zufallsvariable ist diskret, wenn sie in jedem beschrankten Intervall nurendlich vieleAuspragungen annehmen kann. Die diskrete 
Zufallsvariable kann endlich oder abzahlbar unendlich viele Werte Xj ( i = 1,2,..., m bzw. i = 1,2,... ) annehmen. 

Beispiele 

• Zahl der Schadensleistungen, die in einem Jahr bei einer Versicherung auftreten 

• Kinderzahl von Konsumenten 

• Zahl der defekten Kondensatoren in einem Fertigungslos 
Ihre Wahrscheinlichkeitsfunktion ist 



f(xi) fiir x — Xi 







sonst 



P(X = x)=f(x) = 

Es gilt 

£/(*) = !■ 

i 
Die Verteilungsfunktion P(X< a) = F(a) ist die Summe aller Wahrscheinlichkeiten f(Xj) fur Xj < a. 

Der Erwartungswert einer Zufallsvariablen ist der Durchschnitt des Auftretens ihrer Realisationen. Bei einer diskreten Zufallsvariablen betragt er 

i 
falls EXexistiert, d.h. nicht unendlich wird. 

Die Varianz einer diskreten Zufallsvariablen berechnet sich als 



VaiX = Y^(xi-EXff(x i ). 

i 

Nach dem sog.Verschiebungssatz ist auch 

VsiX = (£ t x 2 i f{x i ))-(EX)\ 



im Beispiel: 

VaiX = 30 2 0,4 | 50 2 ■ 0,3 I GO 2 ■ 0,2 | 100 2 ■ 0,1 - 49 2 

360 I 750 I 720 I 1000 - 2401 = 429 . 



2.2. 



Stetige Zufallsvariablen 



Beispiel eines Zeitungskiosks 
Dichtefunktion 

Die Zufallsvariable X „An einem Tag verkaufte Menge an Tageszeitungen (in 
100) eines Zeitungskiosks" lasst sich beschreiben mit der (in diesem Fall frei 
erfundenen) Dichtefunktion 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 2 vom Inhaltsverzeichnis 



Dichtefunktion 
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m 



tX 



fur 6 < x < 8 
fiir 8 < x < 10 
sonst 



Diese Zufallsvariable Xist nun stetig, d.h. sie hat in jedem Intervall a < X< b 
unendlich viele Auspragungen. 

Eine Analyse der Grafik zeigt, dass diese Dichtefunktion symmetrisch 
bezuglich 8 ist, was die Berechnung von Wahrscheinlichkeiten sehr erleichtert. 

Wir wollen nun die Wahrscheinlichkeit bestimmen, dass an einem Tag 
hochstens 700 Zeitungen verkauft werden, also P(X < 7). Wenn wir analog zu 
der diskreten Zufallsvariablen vorgehen, wo wir „die Summe der Stabchen" 
ermittelten, musste die Wahrscheinlichkeit P(X< a) hier „unendlich viele 
Stabchen", also eine Flache ergeben. 

Wir berechnen die Dreiecksflache mit Hilfe der Geometrie: 

P{X < 7) -= Breite des Dreiecks ■ Ho he des Dreiecks 




Dichtefunktion von X 





1 1 

= 1-4-2 = 


i 
8 ' 


Es 


ist ubrigens auch 






P(X < 7) = 


i 

8 ' 











M 
0.3 : 
0.2 ! 

t,i : 

o ■ 




I 








10 t » 9 W 1 


W, dass X hochstens 7 ist 



denn bei einer stetigen Zufallsvariablen ist P(X = x) = 0, da es als unmoglich angesehen wird, genau einen bestimmten Wert x zu „treffen". Man 
betrachtet also bei einer stetigen Zufallsvariablen nur Wahrscheinlichkeiten der Art P(X < x) o.a. 

Es ist P(X < 8) = 0,5, wie man der Grafik sofort entnimmt. 



PlX ^ 9) = — c ' enn w ' e man s ' en -. ist die Flache von P(X > 9) genau gleich der Flache P(X < 

8 

7)- 



AuGerdem ist 



P(X < 9) = 1 - P(X > 9) = 



8 



Bestimmen wir die Wahrscheinlichkeit eines Intervalls. Es ergibt 
P(8 < X < 9) = P(X < 9) - P(X < 8) = 0,875 - 0,5 = 0,375, 
wenn man die Rechenregel fiir P(a < X < b) anwendet. 
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W, dass X mindestens 9 ist 



PDFmyURL.com 









C5 
o.ai 

0,2 i 

□ ■ 


A 




s s r e i w 11 


W, dass X hochstens 9 ist 




e i * * is 11 

W, dass X zw ischen 8 und 9 liegt <P 



Verteilungsfunktion 

Man kann Wahrscheinlichkeiten von Xauch als Verteilungsfunktion darstellen. Sucht man die Wahrscheinlichkeit P(X< a), muss also das 
Integral von -« bis a berechnet werden: 



P(X < a) = F(a) = f j{x)dx 

Bei unserem Beispiel sind wir mit verschiedenen Bereichen konfrontiert: 
1.a<6 

P(X <a)= F(a) = T 0^ = 

J — DC 

2. 6 < a < 8 

= o+[t-!^ 

= 5i _ l a _ ( £ _ 3 6 \ = «? _ a , 9 

8 2 U \ 8 2 U ,J 8 2 U ^ 2 

3. 8<a<10 



= 0+ [i-2^]l+[i^-i]l 

= (f-M)-(f-M)l (|. fl -§)-(|-8-«) 



8 ' 2 



ft ~ o w o 



4. a> 10 
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Verteilungsfunktion 
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r 



P(X < a) = F(a) = 



Sir a < 6 
ffij 6 < a < 8 



2 + |a - f fur 8 < ci < 10 



« 



1 



sonst 



Wir erhalten beispielsweise durch Einsetzen in F(x) 

KJt<o)-*(D-44.-f- 



Quantil 

Das Quantil x(p) gibt die Auspragung x an, die zu einem bestimmten Verteilungswert p = F(x) gehort. 

Beispiele 

x(0,875) = 9, d.h. zur Wahrscheinlichkeit 0,875 gehort der x-Wert 9. 

Ebenso ist x(0,5) = 8. D.h. 8 ist der Median, also wurden an 50% aller Tage hochstens 800 Zeitungen verkauft. 



Ubung 

Bestimmen Sie P(6,25 < X< 8,75). Mit welcher Wahrscheinlichkeit wurden an den 50% besten Tagen mindestens 900 Zeitungen verkauft? 
Gesucht ist hier P(X> 9| X> 8). 

Was Sie speziell iiber stetige Zufallsvariablen wissen sollten 

Eine stetige Zufallsvariable kann in jedem beschrankten Intervall unendlich vieleAuspragungen annehmen. Ihre Verteilung lasst sich durch eine 
Dichtefunktion f(x) beschreiben. f(x) ist keine Wahrscheinlichkeit, sondern eine Dichte. 

• Die Verteilungsfunktion ist 



P(X <a) = F(a) = r f{x)dx 

J—oc 



Esgilt: P(X=a) = 0. 
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• Wegen P(X= a) = ist P(X< a) = P(X< a) und P(X> a) = P(X> a) 

• Die Dichtefunktion f(x) ist die erste Ableitung der Verteilungsfunktion, falls diese an der Stelle x differenzierbar ist. 

• Die Dichtefunktion f(a) kann auch grafter als 1 werden. 

• Ausgehend von P(X <C x) = p ist das p-Quantil x(p) der Wert x, derzu einer gegebenen Wahrscheinlichkeit p gehort. Speziell x(0,5) 
ist der Median. 

• Der Erwartungswert einer stetigen Zufallsvariablen ist analog zu oben 



/DC 
X • f (x)dx 7 fa " s EXexistiert, d.h. nicht unendlich wird. 
-DC 

hre Varianz ist 

(x - EX) 2 ■ f{x)dx 

■OO 

ei auch hier der Verschiebungssatz angewendet werden kann: 

Var X = ( I x 2 f{x)dx J - {EX) 2 



Bei symmetrisch verteilten Zufallsvariablen ist im Allgemeinen der Erwartungswert der Zufallsvariablen gleich dem Median. 

In unserem Beispiel ist also EX= 8, denn die Verteilung ist symmetrisch. Das bedeutet, dass im Durchschnitt pro Tag 800 Zeitungen umgesetzt 
werden. 

Wendet man die gegebene Formel fur EXauf unser Beispiel an, so erhalt man: 

EX = I^x-Odx + J*x-{i-%)dx + j™x.{%-i)dx + J™x.Qdx 



-[ 



[2 



3j 2 
4 



+ 



T 



VI 



10 



= 8 



Entsprechend gilt fur die Varianz: 

r6 



VarX = J! M ^-Oite+J?^.(!-i)ite + £ ^ 
+ J™x 2 - Qdx-64 



(I 



l)dx 



[ 18 



3j 3 
6 



Ji.i 



+ 



5i 3 
6 



Hi 



10 



« 



64 



3 



0,7 



Beispiel: Eingehende Anrufe bei Fernsehabstimmungen 

Wahrend einer Fernsehsendung wurden die Zuschauer aufgefordert, 
telefonisch abzustimmen. Die Leitungen wurden urn 14 Uhr freigeschaltet. 
Dann konnten die Zuschauer bis ca. 17.30 Uhr anrufen. Fur die eintreffenden 
Anrufe ergab sich naherungsweise die Verteilungsfunktion der stetigen 
Zufallsvariablen X Zeitpunkt (Uhrzeit), an dem ein Anruf eintrifft, wie folgt: 

fiii x < 2 
ln£ -In 2 fur 2 <x < 2e 

1 fur x > 2e 



F<x>=lnx-ln2 



F(a) = 



Sei jetzt ^ ^ fj ein beliebiger Anruf. 
Wirwollen nun bestimmen 

1. die Dichtefunktion f(x) 

2. die Wahrscheinlichkeit dass bis hochstens 15 Uhr der Anruf co 
eingegangen ist. 



1 




Vfi 










$ 










0.4 ■ 








0,2 ■ 

rj 







Verteilung von Inx - In2 
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3. die Wahrscheinlichkeit, dass zwischen 15 und 16 Uhr der Anruf co 
eingegangen ist. 

4. die Uhrzeit, zu der 90% aller Anrufe eingetroffen sind 

5. den Median 

6. den Erwartungswert 

7. dieVarianz 

Die Grafik der Verteilung F(X) zeigt den typischen Verlauf einer logarithmischen Funktion. 

1. Dichtefunktion f(x) 

Die Dichtefunktion ist immer die ersteAbleitung der Verteilungsfunktion: f(x) = 
P(x). 

Unsere Verteilungsfunktion ist abschnittsweise definiert. Wir mussen 
bereichsweise ableiten (dass die Funktion an den Knickstellen moglicherweise 
nicht differenzierbar ist, tut im Allgemeinen nicht wen, Hauptsache, die Flache 
ergibt 1). 

Bereich x < 2 : F{x) = -> f(x) = 
Bereich 2 <x<2e: F(x) = 111 X - 111 2 -* f(x) = - 
Bereich x > 2e : F(x) = 1 — t f(x) = 
Wirwollen jetzt f(x) noch ordentlich angeben: 

' 1 fiiT 2 < x < 2e 



n*)= 



sonst 



ffx)=1/x 



Up 




^\T 
















o^- 










ftl - 











Dichtefunktion von Inx - In2 



Betrachten wir mal die Dichtefunktion: Man sieht hier deutlich, dass die 

meisten Anrufe in den ersten 1,5 Stunden nach Freischalten eingelaufen sind. Danach flaut die Zahl der Anrufe allmahlich ab. 

2. Wahrscheinlichkeit, dass bis hochstens 15 Uhr der Anruf w eingegangen ist 

Gesucht ist P(X< 3). In der Dichtefunktion ist das die Flache von 2 bis 3. Diese Flache ist das Selbe wie der Funktionswert F(3). Wir erhalten 

P(X < 3) = In 3 - In 2 = 1,0986 - 0,6931 = 0,4055 

Man kann also sagen, dass in einer Stunde ab Freischalten der Leitungen 40% der Anrufe eingegangen sind. 









M- 
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0,2- 
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n 






^ 0,405 
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Flache der Dichtefunktion fur P(X<3) 





0.3 






0.3 


0,405 / 




0.2 


/ 
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% 


Verteilungsfunktion fur P(X<3) 
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3. Wahrscheinlichkeit, dass zwischen 15 und 16 Uhr der Anruf w 
eingegangen ist 

Gesucht ist hier P(3 < X< 4). Wirwissen schon, dass speziell fur stetige 
Zufallsvariablen (bei diskreten muss man noch zwischen < und < 
unterscheiden) gilt: P(3 < X< 4) = P(X< 4) - P(X< 3). Wir erhalten dann 

P(Z<X <A)=F(A)-F(Z) 

= In 4 -In 2- (In3-hi2) 

= ln4-ln3 

= 1,3863-1,0986 = 0,2877 

4. Uhrzeit, zu der 90%aller Anrufe eingetroffen sind 

Hier ist die Wahrscheinlichkeit 0,9 gegeben und wir suchen den X-Wert, der zu 
dieser Wahrscheinlichkeit passt, also P(X< ?) = 0,9. Gesucht ist also das 
90%-Quantil. Wir bilden den Ansatz 

F(?) = 0,9 oder etwas professioneller: F(x(0,9)) = 0,9, also 

In x- In 2 = 0,9^ \\\x = ln2 + 0,9 -► x = exp{ln2 + 0,9) ^4,91, 

d.h. etwa urn 16.55 waren 90% der Anrufe eingegangen. 

5. Median 

Der Median ist das 50%-Quantil. Es ergibt sich also analog zu oben: 

In x - In 2 = 0,5 -* x& 3,30 

6. Erwartungswert 

Der Erwartungswert der Zufallsvariablen Xwird bei einer stetigen Zufallsvariablen integriert: 
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0,4- 






0,288 




0,3 
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Flache der Dichtef unktion fur P(3 < X < 4) 


£3 



EX= r x-f(x)dx 

•f—oc 



Wir mCissen hier wieder bereichsweise vorgehen und bestimmen zunachst mal die Teilintegrale: 
Bereich x < 2 ; / ,,- . ( i { i\ r [) 



x^2: / x-Odx = 

:jx--dx = jld&= [x]f = 2e - 2 = 3,44 
f x-0dx = 

J2c 



Bereich 2 < x < 2e : 
Bereich x > 2e : 



Wir miissen nun die Teilintegrale addieren und erhalten 

EX = + 3,44 + = 3,44. 
Es kam also ein Anruf im Durchschnitt urn 15.30 an. 

7. Varianz 

Die Varianz berechnet sich nach der Formel 



VarX 



= (Y° x 2 .f(x)dx\-(EX) 2 



Analog zu oben erhalten wir 
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(/ 2 2 V ■ life) - {EXf = (tfxdx) - (2e - 2f 

[^] 2e _ 3,44 2 = 1H|11 _ | _ 3442 = 0,9681 



2.3. 


Ungleichung von Bienayme- 
Tschebyschew 


« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 2 vom Inhaltsverzeichnis 



Mit der Ungleichung von Tschebyschew oder Biennayme-Tschebyschew kann man Wahrscheinlichkeiten einer Zufallsvariablen mit unbekannter 
Verteilung abschatzen. Benotigt werden als Information der Erwartungswert und die Varianz der Zufallsvariablen, die im Allgemeinen geschatzt 
werden mussen. 

Die Ungleichung lautet folgendermaften: 

P(\X-EX\>e)<^^- 

Besser kann man sich die Beziehung vorstellen, wenn man die Betragsungleichung ausschreibt : 

VbiX 



P(X < EX - e V X > EX + e) < 



f- 



DieseAbschatzung ist naturgemaft sehrgrob und kann manchmal nichtssagende Ergebnisse liefern. 

Beispiel 

Es ist bekannt, dass ein Kaffeeautomat im Durchschnitt 250 ml Kaffee ausschenkt mit einer Varianz von 100 ml 2 . Eine Tasse gilt als korrekt 
befullt, wenn ihr Inhalt nicht mehr als 30 ml vom Durchschnitt abweicht. DerAnteil der inkorrekt befullten Tassen betragt hochstens 

100 1 



P(\X-25Q\ >30) < 



30 2 9" 



bzw. 



P(X < EX - 30 V X > EX + 30) < 

Umgekehrt gilt dann auch 



100 1 



P(EX-e <X <EX l c) > 1 



30 2 9 
VarX 



bzw. 



P(\X-EX\ <e) > 1- 



VarX 



t' 1 



Also ware der Anteil der korrekt befullten Tassen mindestens 8/9. 



2.4. 



Mehrdimensionale Zufallsvariablen 



Beispiel fur mehrdimensionale Zufallsvariablen 

In einer Studie uber "Total Quality Management" wurde eine 
umfangreiche Befragung bei europaischen Produktionsbetrieben 
durchgefuhrt. Man erfasste zum einen den Aufwand fur die 
Qualitatskontrolle wahrend der laufenden Produktion in Prozent der 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 2 vom Inhaltsverzeichnis 
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Produktionskosten und des Weiteren die Aufwendungen fur 
Reklamationen prozentual zum Umsatz. 

Wir definieren die Zufallsvariablen: 

X Anteilige Kosten der Qualitatskontrolle [%]. Y: Anteilige Kosten der 
Reklamationen [%]. 

Es ergibt sich die unten dargestellte gemeinsame 
Wahrscheinlichkeitstabelle mit der i-ten Zeile (i = 1, ... , n) und der 
j-ten Spalte (j = 1, ... , m). (Siehe darunter die graphische Darstellung 
der Tabelle.) Man erkennt, wie bei steigendem Aufwand der 
Qualitatskontrolle dieAusgaben fur die Reklamationen sinken. 

Die gemeinsame Wahrscheinlichkeit P(X= 5 A Y = 10) = 0,05 
werde bezeichnet als fx,Y(5;10) . 

Die spalten- bzw. zeilenweisen Summen der gemeinsamen 
Wahrscheinlichkeiten ergeben die Randwahrscheinlichkeiten oder 
auch Einzelwahrscheinlichkeiten der Zufallsvariablen Xbzw. Y 

Es ergeben sich also fur diese beiden Variablen die 
Wahrscheinlichkeitsverteilungen 
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0,00 


0,4 


P(Y = Y,) i\2 


0,2 


n t 2 


0,4 


1,0 
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<P 
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Die Einzelwahrscheinlichkeit berechnet sich als 

771 

P(X = Xl ) = f x (xi) = £ f x , Y (x i; Vi ) , 

also hier 

P(X = 0) = f x (0) = I I 0,1 I 0,3 = 0,4 



2.4.1. 



Abhangigkeit von Zufallsvariablen 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 2 vom Inhaltsverzeichnis 



Stochastische Unabhangigkeit 

Falls Xund Y stochastisch unabhangig sind, ist 

Beispiel: 

Z.B. ist P(X= A Y = 0) = 0, aber P(X= 0) ■ P(Y = 0) = 0,4 ■ 0,2 ± 0. 

Also sind Xund Y stochastisch abhangig. Es geniigt schon, wenn die Unabhangigkeitsvoraussetzung fur ein Paar nicht erfullt ist. 
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Kovarianz 

Man interessiert sich bei gemeinsam verteilten Variablen im allgemeinen auch dafur, inwieweit zwischen diesen Variablen ein Zusammenhang 
besteht. In unserer Wahrscheinlichkeitstabelle des Beispiels "Qualitatskontrolle" stehen beispielsweise links unten und rechts oben die 
grofeeren Wahrscheinlichkeiten, also scheinen niedrige Auspragungen von Xeher mit hohen Auspragungen von Y und hone Auspragungen von X 
eher mit niedrigen Auspragungen von Y einherzugehen. 

Ein Mad fureinen linearen Zusammenhang zweierZufallsvariablen Xund 
Y ist beispielsweise die Kovarianz covXY. Sie ist fur diskrete 
Zufallsvariablen definiert als 



Wahrscheinlichkeitstabelle des Beispiels von oben 
Gemeinsame Wahrscheinlichkeit von Qualitatskontrolle X und Reklamationskosten Y 


x\y 
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fjfc) 
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0,10 
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covXY = £ 5>, - EX)( Vj - EY)f XjY (x i]Vj ) 

i=i j"=i 

bzw. wegen des Verschiebungssatzes 
n m 

covXY = J2 E ^ ■ Vj ■ fxA^Vj) -EXEY 

i=l J'=l 
Es ergibt fur unser Beispiel 

EX = ■ 0,4 | 5 ■ 0,2 I 10 ■ 0,4 = 5 

und 

EY = ■ 0,2 + 5 ■ 0,2 + 10 ■ 0,2 + 15 ■ 0,4 = 9 

und damit die Kovarianz 

covXY = (0 - 5)(0 - 9) ■ + (5 - 5)(0 - 9) ■ + (10 - 5)(0 - 9) ■ 0,2 

+(0 - 5){5 - 9) ■ + (5 - 5){5 - 9) ■ 0,05 I (10 - 5)(5 - 9) ■ 0,15 
+(0 - 5)(10 - 9) ■ 0,1 + (5 - 5)(10 - 9) ■ 0,05 + (10 - 5)(10 - 9) ■ 0,05 
+(0 - 5)(15 - 9) ■ 0,3 + (5 - 5)(15 - 9) ■ 0,1 + (10 - 5)(15 - 9) ■ 
+ + (-5) -0,1 + (-30) -0,3 + 0+0 + + 
+(-45) ■ 0,2 + (-20) ■ 0,15 + 5 ■ 0,05 + = -21,25 

Eine positive Kovarianz deutet daraufhin, dass eher ein proportionaler Zusammenhang zwischen Xund Y besteht, eine negative Kovarianz 
dagegen, dass eher ein umgekehrt proportionaler Zusammenhang zwischen Xund Y besteht. 

Korre lationskoeff izie nt 

1st die Kovarianz null, sind die Zufallsvariablen unkorreliert, sonst korreliert. 

Die Kovarianz ist nicht normiert. Ein normiertes Maft fur den linearen Zusammenhang stellt der Korrelationkoeffizient nach BRAVAIS- 
PEARSON p Xj Y dar, der definiert ist als 

covXY 
VvarXvVarF 
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Es gilt fur den Korrelationskoeffizienten p Xj y : 

-1<PX,Y <i 

1st p Xj Y 1 Oder -1, besteht ein exakter linearer Zusammenhang zwischen Xund Y. 

Sind Xund Y stochastisch unabhangig, ist covXY und damit p Xj Y gleich null. Der Umkehrschluss ist nicht zulassig, da eine nichtlineare 

Abhangigkeitsstruktur zwischen Xund Y bestehen kann, die vom Korrelationskoeffizienten nicht erfasst werden kann. 

Beispiel: 

Wir berechnen zunachst die Varianz von Xals 

vaiX = (0 - 5) 2 ■ 0,4 + {5 - 5) 2 ■ 0,2 + {10 - 5) 2 ■ 0,4 = 20 

und entsprechend die Varianz von Y als 

varF = 34- 

Damit erhalten wir 

cov(X,Y) -21,25 

p xy = - \ , r ±^ = ' = -0,8149- 

Bedingte Wahrscheinlichkeiten von Zufallsvariablen 

Auch fur Zufallsvariablen sind bedingte Wahrscheinlichkeiten angebbar, namlich 
die bedingte Wahrscheinlichkeit einer Zufallsvariablen als 

P(X <XiAX <x k ) 

P(X < x k ) 

und die bedingte Wahrscheinlichkeit zweier Zufallsvariablen 

P(X < Xj A Y < yj) 
P(Y<Vi) 

Entsprechendes gilt fur > und =. 

Ebenso gilt: 

Wenn Xund Y stochastisch unabhangig sind, ist 

P(X < Xi A Y < yj) = P(X < Xi ) -P(Y< yj) 

furalle ij. 

Beispiele: 

PfY>15IY>5) P (Y>15AY>5) P(Y > 15) 0,4 
nY ~ 15|y - b) ~ P(Y > 5) " P(Y > 5) ~ 0,8 " U,& 

„Die Halfte aller Unternehmen mit Reklamationskosten hatte mindestens 15% Aufwand." 
„Die Halfte aller Unternehmen mit sehr viel Qualitatskontrolle hatte Reklamationskosten." 



P(X < Xi\X < x k ) = 

i die bedingte Wahrscheinlich 

P(X<Xi\Y< yj ) 



2.4.2. Funktionen von Zufallsvarishlen 



« hoch zum Anfang vom Inhaltsverzeichnis 
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<< hoch zum Kapitel 2 vom Inhaltsverzeichnis 

Funktion einerZufallsvariablen 

Lineare Transformation einer Zufallsvariablen 

Der Student Bert hat eine kleine schicke Appartementwohnung, die er hin und wieder saubern muss. Die Intervalle der Reinigungsaktionen sind 
unterschiedlich und lassen sich folgendermafeen beschreiben: Die Zeit in Wochen, die nach der letzten Sauberungsaktion verstrichen ist, wird 
als Zufal Is variable X bezeichnet. Die Intervalle verteilen sich folgenderma&en: 



Zahl der Wochen biszur nachsten Putzaktion Xj 





1 


2 


3 


4 


5 


Wahrscheinlichkeit f(xj) 


0,1 


0,2 


0,2 


0,3 


0,1 


0,1 



Xhat den Erwartungswert EX =2,4 und die Varianz 2,04. Rechnen Sie das zur Ubung selber nach. 

Wenn Bert putzen muss, hangt derAufwand in Stunden von der Zahl der Wochen ab, die er seine Wohnung vernachlassigt hat. Er braucht 
jedesmal ca. 1 Stunde fur das Bad und einmal Durchsaugen. Fur die restlichen Arbeiten muss er pro verstrichener Woche noch eine halbe 
StundeArbeitszeit hinzugeben. Morgen kommen seine Eltern zu Besuch. Mit welcher Wahrscheinlichkeit muss Bert heute 2 Stunden putzen? 
Wie lange putzt er durchschnittlich jedes Mai? 

Hier uberlegen wir uns zunachst mal, dass die Putzzeit von der vorherigen „Karenzzeit" Xabhangt. Sie ist also auch eine Zufal Is variable. Man 
konnte sie so darstellen: 

Y = \ | 0,5-X 

Wie ist nun Y verteilt? Y hangt direkt von Xab und wir erhalten die Wahrscheinlichkeitstabelle 



Zahl der Wochen biszur nachsten Putzaktion Xj 





1 


2 


3 


4 


5 


Aufgewendete Putzzeit yj 


1 


1,5 


2 


2,5 


3 


3,5 


Wahrscheinlichkeit f(yj) 


0,1 


0,2 


0,2 


0,3 


0,1 


0,1 



Man kann sofort sehen, dass Bernd mit einer Wahrscheinlichkeit von 20% 2 Stunden putzen wird. 

Wir wollen nun Erwartungswert und Varianz von Y ermitteln. Der Erwartungswert berechnet sich wie gewohnt als 

EY = EiVi-fiVi) = 1-0,1 + 1,5-0,2 + 2-0,2 
+2,5-0,3 + 3-0,1 + 3,5-0,1 
= 0,1 + 0,3+0,4 + 0,75 + 0,3 10,35 = 2,2 

Das bedeutet er putzt durchschnittlich 2,2 Stunden. 
Die Varianz ergibt sich analog als 

varY = Ei y] ■ f(Vi) ~ (EY) 7 = l 2 ■ 0, 1 I 1,5 2 ■ 0, 2 I 2 2 ■ 0, 2 
+2, 5 2 ■ 0, 3 + 3 2 ■ 0, H 3, 5 2 ■ 0, 1 - 2, 2 2 
= 0,1+0 1 45 + 1 8 + 1,875 + 1 9+1 J 225-2,2 2 = 0,51 

Schon ware es allerdings, wenn man die Parameter der Verteilung etwas einfacher ausrechnen konnte. Y hat die schone Eigenschaft, dass es 
eine lineare Transformation von Xist der Art 

Y = a + bX . 

Bei linearen Transform at ionen wie oben gilt 

EY = a | b ■ EX 

und 

varY = b ■ varX 
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Rechnen wir nach: 

EY=l | Q,5-EX=1 I 0,5-2,4= 1 I 1,2 = 2,2 

und 

varY = 0, 5 2 ■ varX = 0, 25 ■ 2, 04 = 0, 51 
Standard isierung 

Eine spezielle lineare Transformation ist die Standardisierung einerZufallsvariablen Xdurch 

x -EX 



z = 



\fvarX 

Man kann namlich Z so umfbrmen: 

z= x EX 



\fvarX y/varX 



= a + bX 



mit I) = 



1 



: und a = 



EX 
y/varX 



■, denn Erwartungswert und Varianz von Xsind Konstanten. 



\fvarX 

Es ist dann EZ = und varZ = 1 . 

Nichtlineare Funktion einerZufallsvariablen 

Lakonisch konnte man sagen: Eine nichtlineare Funktion ist eine Funktion, die nicht linear ist. Man kann sie also nicht in der Form Y = a + bx 
schreiben. Beispiele sind etwa 

Y = X\ Y = sinX, Y = \[X 

Hier kann man die Parameter im Allgemeinen nur uber die Verteilung der Zufallsvariablen bestimmen. 



Beispiel 

Es hat sich herausgestellt, dass derAufwand an Putzmitteln (ml pro qm) in Abhangigkeit von der verstrichenen Zeit quadratisch steigt mit der 
Funktion 

y = 2 + 1 ■ x 7 



Zahl derWochen biszur nachsten Putzaktion Xj 





1 


2 


3 


4 


5 


Aufgewendete Putzmittel yj 


2 


3 


6 


11 


18 


27 


Wahrscheinlichkeit f(yj) 


0,1 


0,2 


0,2 


0,3 


0,1 


0,1 



Hier kann man Erwartungswert und Varianz von Y nur mit den bekannten Formeln ermitteln, etwa 

EY = E*ift -/(») = 2-0,1 I 3 0,2 ( 6 0,2 
+11-0,3 + 18-0,1 + 27-0,1 
= 0,2 | 0,6 I 1,2 | 3,3 I 1,8 I 2,7=9,8 
Lineare Funktionen mehrerer Zufallsvariablen 
Zwei Variablen 

Gegeben sind zwei Zufallsvariablen X| und X2 mit den Verteilungsparametern EX-|, varX-| und EX2, varX2. AuGerdem sind die beiden 
Zufallsvariablen korreliert mit der Kovarianz covX|X2. Es wird eine Zufallsvariable 

Y = b + b l X l +b 2 X 2 
gebildet. Analog zu oben errechnet sich der Erwartungswert von Y durch 
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EY = b Q + b x EX l +b 2 EX 2 ■ 
Die Varianz von Y setzt sich aus den Einzelvarianzen der Zufallsvariablen zusammen. Hinzu kommt noch die Kovarianz: 

varY = b^varX 1 + b^varX? + 26162 ■ covX 1 X 2 

Wenn die zwei Zufallsvariablen X-| und X2 stochastisch unabhangig sind, ist ihre Kovarianz Null. Dann reduziert sich die Formel fur die Varianz 
auf 

varY = bl varX 1 \ bl varX? 

Beispiel 

Die Versorgung mit Getranken in einem FuGballstadion mittlerer GroGe wird bei Spielen von einem Gastronomieunternehmen betrieben. Man 
weift aus Erfahrung, dass die Zahl der verkauften Bierbecher von der Zahl der vorbestellten Eintrittskarten abhangt, und zwar in unterschiedlicher 
Weise von einheimischen und auswartigen Besuchern. Es sei X\: Zahl der bestellten Karten von Einheimischen und X2: Zahl der bestellten 
Karten von Auswartigen. 
Es hat sich herausgestellt, dass EX X = \0.000,EX 2 = 1000 und varX x = 2000, varX 2 = 300 sind. 

Zudem sind X-| und X 2 korreliert, denn je interessanter ein Spiel, desto mehr Einheimische und Auswartige schauen das Spiel an. Es ist covX 1 X 2 

= 400. 

Die Zahl der verkauften Getranke lasst sich angeben als 

Y = \00 + 2Xi+3X 2 . 
Es ist hier 

EY = 100 I 2 ■ 10000 I 3 ■ 1000 = 23100 

und 

varY = 2 2 ■ 2000 I 3 2 ■ 300 + 2 ■ 2 ■ 3 ■ 400 = 15500 
Mehr als zwei Variablen 

Gegeben sind n Zufallsvariablen Xj (i = 1, ..., n) mit den Erwartungswerten EXj, den Varianzen varXj und den paarweisen Kovarianzen covX|X2, 
COVX-1X3, ..., covXp.-iXn . covXjXj (i < j; i = 1, ..., n-1; j = i+1, ..., n). Es sei 

n 

Y = 60 I b 1 X 1 | 62-^2 + ■■■ + b n X n = &o | ^ biXi. 

■i-i 

Dann erhalten wir fur den Erwartungswert 

EY = bo + b 1 EX 1 + biEX 7 + ... + b n EX n = b* + 1 £b i EX i . 

i=l 

Die Varianz von Y konnen wir als Summe der Varianzen und paarweisen Kovarianzen ermitteln als 
rn n—1 n 

varY = ^ j h 2 varX i \ 2 ^2 Yl bibjCovXiXj. 

und, falls die Zufallsvariablen Xj stochastisch unabhangig sind, als Varianz 
m 

varY = ^2 b+varXi. 



Ausgewahlte Verteilungen 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 3 vom Inhaltsverzeichnis 
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Bei den ausgewahlten Verteilungen handelt es sich um theoretische Zufallsverteilungen. Das sind Verteilungen, deren Form durch eine allgemein 
bekannte Funktion beschrieben wird. Oftmals kann beobachtet werden, dass die Verteilung bestimmter Zufallsvariablen annahernd durch eine 
theoretische Verteilung dargestellt werden kann, z. B. das Gewicht von Hahnchen einer Geflugelzucht ist meistens annahernd normalverteilt. 
Meist haben diese Verteilungen bestimmte Vorzuge, sie konnen leicht berechnet werden, und man kann auch wahrscheinlichkeitstheoretische 
Folgerungen Ziehen. Hier bekannt ist bereits die Dreiecks verteilung. 



3.1 . Diskrete Verteilungen 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 3 vom Inhaltsverzeichnis 



« hoch zum Anfang vom Inhaltsverzeichnis 

3.1 .1 . Binomialverteilung 

<< hoch zum Kapitel 3 vom Inhaltsverzeichnis 

Binomialverteilung 

Das Urnenmodell mit Zuriicklegen bestimmt die binomialverteilte Zufallsvariable. 

Gegeben ist eine Urne mit zwei Sorten Kugeln. Man spricht von einer dichotomen (griech: zweigeteilten) Grundgesamtheit. Es sind insgesamt N 
Kugeln in der Urne und M Kugeln der ersten Sorte. Der Anteil der Kugeln erster Sorte ist also 

N 

(0 < 9 < 1). Es werden n Kugeln mit Zuriicklegen gezogen. Es ist die Zufallsvariable definiert: 
X Anzahl der Kugeln 1. Sorte unter den n gezogenen Kugeln. 

Beispiele fur binomialverteilte Zufallsvariablen 

• In einer Urne befinden sich 3 schwarze und 12 wei&e Kugeln. Es werden fiinf Kugeln gezogen, wobei jede Kugel sofort wieder zuruckgelegt 
wird (Modell mit Zurucklegen). Wir definieren Xals Zahl derweiften Kugeln bei n = 5 Entnahmen. 

• 10 mal Wurfeln. X Zahl derWurfe mit einer Augenzahl von mindestens 5. 

• Einem sehr grofeen Fertigungslos von Kondensatoren werden 10 Kondensatoren entnommen. ErfahrungsgemaG sind 15% der 
Kondensatoren schadhaft. X Zahl der schadhaften Kondensatoren. 

• In einer Schulklasse mit 30 Schulern und Schulerinnen wird taglich ein Kind per Los zum Tafeldienst bestimmt. X Zahl der Tage, die Paula 
innerhalb von n = 40 Tagen Tafeldienst machen musste. 

Exkurs 

Beispiel: Sie wurfeln 5 mal. Mit welcher Wahrscheinlichkeit erhalten Sie zweimal Sechs? 

Offensichtlich handelt es sich bei diesem Problem um ein Urnenmodell mit Zurucklegen. Es ware beispielsweise die Wahrscheinlichkeit, dass 
die ersten zwei Wurfe Sechs ergeben: 

115 5 5 
6 ' 6 ' 6 ' 6 ' 6 

Es gibt aber noch mehr Moglichkeiten, zwei Sechsen zu erhalten, namlich: 

(FFFSS), (FFSFS), (FFSSF), (FSFFS), (FSFSF), (FSSFF), (SFFFS), (SFFSF) und (SFSFF). 

Hier bedeuten S: eine Sechs wird gewurfelt, F: keine Sechs wird gewurfelt. Es gibt insgesamt 

0-" 



' - " - "He) G)'=W° S 



,2) 1-2 



= 10 



verschiedene Moglichkeiten, zwei Sechsen zu erhalten. Wir erhalten fur die gesamte Wahrscheinlichkeit P(X= 2), dass bei fiinf Versuchen 
genau zwei Sechsen resultieren: 
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P(X = 2)= r) f^\ ■ f | V = 10 ■ 0,01608 = 0,1608. 



Formale Darstellung 

Die Zufallsvariable Xist binomialverteilt mit den Parametern n und 9. Ihre Wahrscheinlichkeitsfunktion lautet (0 < 9 < 1) 

'©0"(l-0)*~" falls x = 0,1,..., n 
sonst. 



P(X = x) = b(x\n\9) 



Der Binomialkoeffizient berechnet sich als 

(I) "' 



k,n€N, k,n>0. 



ifcl(n - fc)! 

Siehe auch in der Wikipedia: Binomialkoeffizient 

Die Verteilungsfunktion P(X< a) = B(a|n; 0) ergibt sich als Summe der Wahrscheinlichkeiten einer diskreten Zufallsvariablen, wie in 
Zufallsvariablen oder Diskrete Zufallsvariablen erlautert. 

Wie man der obigen Formel entnehmen kann, ist zur Berechnung der Wahrscheinlichkeiten die Kenntnis von N und M nicht erforderlich, es 
geniigt die Bekanntheit von . 

Weitere Kennwerte der Binomialverteilung sind 

EX= n-9 und varX= n- 0-(1 -0). 

Beispiel: Verkehrszahlung 

DerAnteil der LKWs an den Kraftfahrzeugen auf deutschen Autobahnen soil fur unser Beispiel 20% betragen. Im Rahmen einer Verkehrszahlung 
an einer Auffahrt der Autobahn werden wahrend einer Stunde 5 einfahrende Fahrzeuge zufallig erfasst. 

1. Mit welcher Wahrscheinlichkeit befinden sich 2 LKWs in einer Stichprobe? 

2. In wieviel Prozent der Stichproben befanden sich mindestens 2 LKWs in einer Stichprobe? 

Es handelt sich offensichtlich urn ein Modell mit Zurucklegen, denn ein Fahrzeug kann theoretisch auch mehrmals diese Auffahrt nehmen. Da 
wir die Fahrzeuge in LKW und Nicht-LKW unterscheiden, ist die betrachtete Grundgesamtheit dichotom (zwei Sorten Kugeln in der Urne). Wir 
definieren als Zufallsvariable X Zahl der LKWs bei funf gezahlten Fahrzeugen. 

Xist also binomialverteilt mit den Parametern n = 5 und = 0,2 (20%), in Kurzschreibweise 

X~b(x | 5;0,2) . 

Wir werden zunachst die Wahrscheinlichkeitsfunktion von Xbestimmen: 



X= 


o-GHHr—Gy-s 


0,32768 


X= 1 




0,4096 


X=2 


\2J \5J V 5 / 5 3125 


0,2048 


X=3 


H-flV-fSV-in-t'-iD. \ 

\3J V 5 / V 5 / 5 3125 


0,0512 
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X=4 


UJ \b) \b) ~ 5 5^~ 5 3125 


0,0064 


X=5 


CD-G) , -(S) , - i -«- 1 


0,00032 



Wir erhalten dann die Wahrscheinlichkeitstabelle 



Xj 





1 


2 


3 


4 


5 


b(Xj|5;0,2) 


0,32768 


0,4096 


0,2048 


0,0512 


0,0064 


0,00032 



Wir konnen also die gesuchten Wahrscheinlichkeiten aus der Tabelle ablesen 

1. P(X= 2) = 0,2048 

2. P(X> 2) = 1 - P(X< 1) = 1- (0,3277 + 0,4096) = 0,2627 

Eigenschaften der Binomialverteilung 

Bei einem Urnenmodell mit Zurucklegen und zwei Sorten Kugeln (dichotome 
Grundgesamtheit) ist die Zahl der Kugeln erster Sorte bei n Entnahmen immer 
binomialverteilt. 

Bei einem relativkleinen Anteil 9 ist die Verteilung rechtsschief (bzw. linkssteil), da die 
Wahrscheinlichkeit fur ein kleines x graft ist. Bei einem relativgroften Anteil 9 ist die 
Verteilung linksschief, da die Wahrscheinlichkeit fur ein grofees x eher graft ist. 

n 

1st 9 = 0,5, ist die Verteilung symmetrisch bezuglich x = — ■ 




Wahrscheinlichkeitsfunktion der Binomialverteilung 
mit n = 5 und 9 = 0,2 



Binomial verteilung b(x|5; h 8) 


U r *J 






0.4 










r 35 
0.3 












0,25 
0.2 
















oils 
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0>OS 


■ 
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Wahrscheinlichkeitsfunktion der Binomialverteilung 


mit n = 5 und 9 = 0,8 



□.35 
0.3 

0.25- 

0.2 
0.15 

0.1 
O.Co 


Binomialverteilung b(x[5; 0,5) 




_■_ 






" 
















1 2 3 4 5 




Wahrscheinlichkeitsfunktion der symmetrischen 
Binomialverteilung nit n = 5 und 9 = 0,5 



Bemerkung 
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Bei gro&em n wird die Berechnung der Binomialkoeffizienten ein numerisches Problem, das allerdings beispielsweise mit der Stirling-Formel 
gelost werden kann. Bei der Berechnung von Verteilungswerten kann allerdings die Addition der Wahrscheinlichkeiten sehr umstandlich werden. 
Unter Umstanden kann man die Funktionswerte der Binomialverteilung durch die Poissonverteilung oder auch durch die Normalverteilung 
approximieren. 

Siehe auch in der Wikipedia: Binomialverteilung 



3.1 .2. Hypergeometrische Verteilung 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 3 vom Inhaltsverzeichnis 



Das Urnenmodell ohne Zurucklegen bestimmt die hypergeometrisch verteilte Zufallsvariable. 

Gegeben ist eine Urne mit zwei Sorten Kugeln. Man spricht von einer dichotomen (griech: zweigeteilten) Grundgesamtheit. Es sind insgesamt N 
Kugeln in der Urne und M Kugeln der ersten Sorte. Der Anteil der Kugeln erster Sorte ist also 

a-H. 

N 

(0 < 9 < 1). Es werden n viele Kugeln ohne Zurucklegen gezogen. Es ist die Zufallsvariable definiert: 
X Anzahl der Kugeln 1. Sorte unter den n gezogenen Kugeln. 

Beispiele fur Hypergeometrische Verteilungen 

• In einer Urne befinden sich 3 schwarze und 12 wei&e Kugeln. Es werden funf Kugeln ohne Zurucklegen gezogen (Modell ohne Zurucklegen). 
Wirdefinieren Xals Zahl derweiften Kugeln bei n = 5 Entnahmen. 

• Einem Fertigungslos von 100 Kondensatoren werden 10 Kondensatoren entnommen. Erfah rungs gem aft sind 15% der Kondensatoren 
schadhaft. X Zahl der schadhaften Kondensatoren unter den 10 gezogenen. 



Eine Zufallsvariable Xist hypergeometrisch verteilt mit den Parametern N, M und n, wenn ihre Wahrscheinlichkeitsfunktion lautet 

P(X = x) = h(x\N\M ;n)= i 



ur ( y- x) fiirx = 0, 1, ... , n 



sonst 

Die Verteilungsfunktion P(X< a) = H(a|N; M; n) ergibt sich als Summe der Wahrscheinlichkeiten einer diskreten Zufallsvariablen, wie in 
Zufallsvariablen oder Diskrete Zufallsvariablen erlautert. 

Weitere Kennwerte der hypergeometrischen Verteilung sind Erwartungswert und Varianz, 

M „ M / M\ N-n 



M H v M / M\ N-n 

EX = n ■ — - und varX = n - — - [ 1 - — tt r- 

N N V N/N-l 



Der letzte Bruch wird Korrekturfaktor genannt; er korrigiert die Varianz bei einem Modell ohne Zurucklegen. Wir konnen leicht sehen, dass fur 
eine sehr grofte Grundgesamtheit (N) dieser Faktor etwa 1 wird. Bei einer groften Grundgesamtheit kann man also das Modell ohne 
Zurucklegen durch ein Modell mit Zurucklegen annahern. 

Beispiel : 

Von den sechs Rettichen, die eine Marktfrau auf dem Wochenmarkt verkauft, sind vier holzig. Der Student Paul sucht sich 4 Rettiche aus. Man 
konnte sich nun fragen: Mit welcher Wahrscheinlichkeit erwischt er alle holzigen? 

Hier haben wir es unzweifelhaft mit einem Modell ohne Zurucklegen zu tun. Da wir holzige und nicht holzige Rettiche vor uns haben, ist die 
betrachtete Grundgesamtheit dichotom (zwei Sorten Kugeln in der Urne). 

Wir definieren als Zufallsvariable X Zahl der holzigen Rettiche bei n = 4 Entnahmen. 

Xist also hypergeometrisch verteilt mit den Parametern N = 6, M = 4 und n = 4, in Kurzschreibweise 
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X ~ h(x\N\ M-,n) = ft(jc|6;4;4). 

Wir werden zunachst die Wahrscheinlichkeitsfunktion von Xbestimmen: 



x=o 


Q-(to) i-o 

I 5 





X= 1 


ffl-0 4-0 
I 5 





X=2 


© I 5 


6 
15 


X=3 


C)-G)_4-2 

© I 5 


8 
15 


X=4 


(3-0 ii 

© 15 


1 
15 



Uberlegen Sie sachlogisch, warum die ersten beiden Wahrscheinlichkeiten Null sind. 

Der Student Paul wird also mit einer Wahrscheinlichkeit von 1/15 alle vier holzigen Rettiche erwischen. 

Bemerkung 

Werden M oder N graft, wird die Berechnung der Binomialkoeffizienten ein numerisches Problem, das allerdings beispielsweise mit der Stirling- 
Formel gelost werden kann. Da der Unterschied zwischen einem Modell ohne Zurucklegen und mit Zurucklegen bei groftem N unerheblich wird 
(ob man bei einer Entnahme 10000 oder 10001 Kugeln in der Urne hat, macht zahlenmaftig wenig aus), kann man bei groftem N auch 
naherungsweise ein Modell mit Zurucklegen (siehe hierzu Binomialverteilung) verwenden. Haufig ist auch N unbekannt, hier kann das Modell 
ohne Zurucklegen gar nicht berechnet werden. 



3.1.3. 



Poissonverteilung 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 3 vom Inhaltsverzeichnis 



Wir betrachten eine poissonverteilte Zufal Is variable Xmit den Auspragungen 0, 1,2, .... 
Typische Beispiele fur eine poissonverteilte Zufal Isvariable sind: 

• Es betreten in einer Minute durchschnittlich A = 2 Kunden einen Kassenschalter. Wir definieren als X Zahl der Kunden, die wahrend einer 
bestimmten Minute an den Bankschalter kommen. 

• Die Studentin Paula kauft sich in der Cafeteria ein Stuck Ruhrkuchen. Wir definieren als X Zahl der Rosinen in diesem Kuchenstuck. Der 
Backer rechnet bei 20 Stuck Kuchen mit 100 Rosinen. Xist also poissonverteilt mit dem Parameter A = 5. 

• Wir definieren als X Zahl der Schadensfalle einer Versicherung im nachsten Jahr. Man weift, daft pro Jahr durchschnittlich 500 000 
Schadensfalle auftreten. Der Parameter ist hier A = 500 000. 

Man geht also typischerweise von den folgenden Fragestellungen aus: Anzahl des Auftretens eines Phanomens in einer Zeit- , Gewichts- oder 
sonstigen Einheit. Die Zufal Isvariable Xist poissonverteilt mit dem Parameter A. 

Ihre Wahrscheinlichkeitsfunktion lautet (A, >0) 
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£-*-\ X 



P(X = x)=p{x\X)=i' 1 



fiir x = 0, 1, 
sonst 



Die Verteilungsfunktion P(X<a) = Px(a|A) ergibt sich als Summe der Wahrscheinlichkeiten einer diskreten Zufallsvariablen, wie in Zufallsvariablen 
oder Diskrete Zufallsvariablen erlautert. 

Es gilt bei der Poissonverteilung: EX= varX= A. 

Die Poissonverteilung ist reproduktiv: Eine Summe von n stochastisch unabhangigen poissonverteilten Zufallsvariablen Xj (i = 1, ... , n), mit 

jeweils dem Parameter Aj, ist wiederum poissonverteilt, und zwar mit dem Parameter 

x = ±x t 

Beispiel: 

Von den mundgeblasenen Glasern einer Glashutte ist bekannt, dass im Durchschnitt 0,2 Fehler pro Glas auftreten. 

Es ist die diskrete Zufallsvariable X „Die Zahl der Unreinheiten in einem Glas" annahernd poissonverteilt: 

X-*p(x\0 t 2)- 



a) Mit welcher Wahrscheinlichkeit hat ein Glas genau einen Fehler? 



P(X=1) 



0,2 ■ e 



-0.2 



0,1637 



b) Mit welcher Wahrscheinlichkeit hat ein Glas mindestens zwei Fehler? 

e- () - 2 ■ 0,2° 



P(X > 2) = 1 - P(X < 1) = 1 - 

= 1 - e ~ °' 2 - 0,1637 = 1 - 0,8187 - 0,1637 = 0,0175. 



-0.2 



0! 



I 



0,2 ] 



1! 



c) Mit welcher Wahrscheinlichkeit enthalten drei Glaser zusammen mindestens zwei Fehler? Man geht davon aus, dass die Fehler der Glaser 
stochastisch unabhangig sind. 

Man definiert als neue Zufallsvariable Y = X| + X2 + X3, mit X| als Zahl der Fehler des ersten Glases usw Es ist dann ^ = 0,2 + 0,2 + 0,2 = 0,6 und 



P(Y>2)= 1-P(Y< 1) = 1- 



-0,0 



0! 



0^ + e 



-0,fi 



■Ofi 1 



1! 



= 1 - (e -0 ' 6 + 0,6 e -0,6 ) =0,1219. 



3.2. 



Stetige Verteilungen 



: hoch zum Anfang vom Inhaltsverzeichnis 
: hoch zum Kapitel 3 vom Inhaltsverzeichnis 



3.2.1 . Normalverteilung 

Was ist die Normalverteilung? 



= hoch zum Anfang vom Inhaltsverzeichnis 
: hoch zum Kapitel 3 vom Inhaltsverzeichnis 
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Beispiel: 

Auf einer Huhnerfarm mit sehr vielen Huhnern werden eine Woche 
lang die einzelnen Eier gewogen. Definieren wir die Zufallsvariable X: 
Gewicht eines Eis in Gramm. Es stellt sich heraus, daft ein Ei im 
Durchschnitt 50 g wiegt. Der Erwartungswert EX ist daher 50. 
Aufterdem sei bekannt, dass die Varianz varX= 25 g 2 betragt. Man 
kann die Verteilung des Gewichts annahernd wie in der Grafik 
darstellen. Man sieht, daft sich die meisten Eier in der Nahe des 
Erwartungswerts 50 befinden und daft die Wahrscheinlichkeit, sehr 
kleine Oder sehr grofte Eier zu erhalten, sehr klein wird. Wir haben 
hier eine Normalverteilung vor uns. Sie ist typisch fur Zufallsvariablen, 
die sich aus sehr vielen verschiedenen Einflussen zusammensetzen, 
die man nicht mehrtrennen kann, z.B. Gewicht des Huhns, Alter, 
Gesundheit, Standort, Vererbung usw. 




Die Dichtefunktion der Normalverteilung ist definiert als 



(pJx\}jL]a 2 ) 



1 



v^ 



71 ■ (7 Z 



exp( 2aT~) fuTX e 



2 ist. Man sagt, Xist normalverteilt mit den Parametern u und a 2 , in Symbolschreibweise 



wobei E(X) = \i und varX 

X — ^{^|/i;<7 2 ) oderkurzer X ~ N{fi;& 2 ) 

In unserem Beispiel ist X ^ iV(50;25) . 



Die Normalverteilung ist symmetrisch bezuglich u. Die Verteilung P(X< a) von Xist wieder die Flache unter dem Graph der Dichtefunktion. Sie 
wird bezeichnet als 

P(X < a) = $ x (a\ii;a 2 ) fur alle a E R ■ 

Beispielsweise betragt die Wahrscheinlichkeit, dass ein Ei hochstens 55 g wiegt, 0,8413. Das entspricht der roten Flache in der Abbildung. 
Das Integral der Dichtefunktion kann nicht analytisch berechnet werden. Die Werte derVerteilungsfunktion liegen i.a. tabellarisch vor. Es besteht 
nun das Problem, daft fur jeden Wert von u und o 2 eine eigene Tabelle vorliegen musste. Hier ist hilfreich, daft die aus Xstandardisierte 
Zufallsvariable Z wiederum normalverteilt ist und zwar mit den Parametern und 1. Es kann jede beliebige Normalverteilung standardisiert 
werden. Mit Hilfe der standardisierten Zufallsvariablen wird dann die gesuchte Wahrscheinlichkeit bestimmt. 

Standardnormalverteilung 

Man definiert also eine neue Zufallsvariable 

_ X - EX X-fi 

z = 



\fvarX & 

Diese Zufallsvariable Z ist normalverteilt mit EZ = und varZ = 1. Ihre 
Dichtefunktion ist in derfolgenden Grafik dargestellt. Es ist also 

Z~A'(0;1). 

Die Dichtefunktion von Z ist 

1 z 7 

^(z|0;l) = -^=exp(-y)fiirz € R 

Ihre Verteilung, die man auch kurz als 4>(z) bezeichnet, ist (z const.) Dichtefunktion der Standardnormalverteilung 




P(Z <z) = <b(z) = f <p{u)du. 

•s—OC 
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Verteilungswerte 

Es ist beispielsweise die Wahrscheinlichkeit 

P(Z< 0,44) = 0,6700 

und 

P(Z> 1,64) = 0,0505. 
Wir wollen nun den Anteil der Eier mit hochstens 55 g bestimmen, also P(X< 55). Wir standardisieren: 

x — (i 55 — 50 



z = 



Es ist dann 



V25 



= 1 . 



P(X < 55) = P(Z < 1) = *{1) = 0,8413. 



Der Wert 0,8413 der Verteilungsfunktion wird in der Normalverteilungstabelle ermittelt. DerfolgendeAusschnitt aus derTabelle soil die 
Vorgehensweise verdeutlichen: In der ersten Spalte derTabelle sind die zwei ersten signifikanten Stellen derAuspragung z angegeben, in der 
ersten Tabellenzeile die zweite Nachkommastelle, so dass sich beispielsweise z = 1,00 zusammensetzt aus 1,0 + 0,00. Wo sich Zeile und 
Spalte des betreffenden Z-Wertes kreuzen, stent die gesuchte Wahrscheinlichkeit. 



z 


0,00 


0,01 


0,02 


0,0 


5000 


5040 


5080 


0,1 


5398 


5438 


5478 


0,2 


5793 


5832 


5871 


0,3 


6179 


6217 


6255 


0,4 


6554 


6591 


6628 










0,5 


6915 


6950 


6985 


0,6 


7257 


7291 


7324 


0,7 


7580 


7611 


7642 


0,8 


7881 


7910 


7939 


0,9 


8159 


8186 


8212 










1,0 


8413 


8438 


8461 


1,1 


8643 


8665 


8686 


1,2 


8849 


8869 


8888 



Der errechnete Wert z kann gerundet werden, falls die errechneten Stellen die Zahl der 
Stellen des tabellierten z-Wertes ubertreffen. Da die Verteilung von Z symmetrisch 



/~\ 
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bezuglich |j = ist, genugt die Tabellierung der Verteilungswerte ab z = bzw. <tyz) = 
0,5. Es gilt, wie man auch anhand der Grafik leicht sieht: 

P(Z < -z) = P(Z >z) = \- P(Z <z) = \- <$>(z) 

bzw. 

<D(-z)=l-0>(z). 
Beispiel: 

P(Z<-1) = P{Z>\) = l-P{Z<\) 

= 1-4(1) = 1-0,8413 =0,1587 
Quantil 

Haufig sucht man zu einer gegebenen Wahrscheinlichkeit p den dazugehorigen z-Wert z(p). Er wird als p-Quantil bezeichnet. 
Es gilt also: 

P(Z<z(p)) = p. 

Beispielsweise ist z(0,975) = 1,96. Es ist also hier die Wahrscheinlichkeit 0,975 
gegeben und der dazugehorige z-Wert wird gesucht. Man sucht in der Tabelle die 
Wahrscheinlichkeit 0,9750 und bestimmt dann am Rand den betreffenden z-Wert 1,96. 

Liegt p zwischen zwei Tabellenwerten, genugt es, als p den Tabellenwert zu verwenden, 
der p am nachsten liegt. 

Beispiel: 



Gesucht: z(0,9) 





naher bei 


0,9 




Wahrscheinlichkeit 




0,8997 




0,9015 


z-Wert oder Quantil 


1,28 




1,29 





















0,975 


fl'wisi'-D'-isri'O 1 * 
1 1,96 



97,5%-Quantil der Standardnormalverteilung 



Es ist also z(0,9) « 1,28. 

Fur eine Normalverteilung mit u und o 2 berechnet sich das p-Quantil als 
X{p) = ll + <7 -Z(p). 

Beispiel: 

Wie schwer sind hochstens die 2/3 leichtesten Eier? Gesucht ist also x(0,67): 

x(p) = 50 I 5 ■ z(0, 67) = 50 I 5 ■ 0, 44 = 52, 2. 

Das schwerste der 67% leichtesten Eier wog also 52, 2g . 

Ubung zur Berechnung von Oz( z ) 

Schraffieren Sie die gesuchte Wahrscheinlichkeit in der Grafik und berechnen Sie die gesuchten Werte: 
P(Z<0,51) P(Z<2,0)= P(Z<-0,51) 
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-3 -2 -1 1 2 3 -4 -3- -? -1 1 S 3 ^-JJ-10123 



P(1,5<Z<2,35) 

HUM} 



P(- 0,8 <Z< 1,05) 

NjMp 



P(Z>-0,89) 






-J -2 -1 1 3 3 -4-3-2-10123 -4 -J -J -1 1 2 3 



P(Z<-1,68 U Z>2) 



P(Z<-1,96 U Z>1,! 



P(Z<-5) 



U|Mt 






-4-3-2*1012-3 4-3-2-10123 -4-3-240123 



z(0,975) 



z(0,8) 



z(0,2) 






■4-3-3-10123 -4-3-2-10123 -4-3-2-10123 

Ubungen zum Eier-Beispiel 

1. Wie graft ist die Wahrscheinlichkeit, daft ein Ei hochstens 60 g wiegt? 

2. Wieviel Prozent der Eier wiegen hochstens 50 g? 

3. Wie graft ist die Wahrscheinlichkeit, daft ein Ei mindestens 45 g wiegt? 

4. Wieviel Prozent der Eier liegen zwischen 45 und 55 Gramm? 

5. Mit welcher Wahrscheinlichkeit wiegt ein Ei genau 53 Gramm? 

6. Welches Mindestgewicht haben die 30% schwersten Eier? 
Losungen: 

Ubung zur Berechnung von <$> z (z) 

a) 0,6950 b) 0,9772 c) 0,3050 d) 0,0574 e) 0,6412 f) 0,8133 g) 0,0693 h) 0,05 i) j) 1,96 k) 0,84 1) j-0,84 
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3.2.1.1. 



Zentraler Grenzwertsatz 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 3 vom Inhaltsverzeichnis 



Gegeben sind die stochastisch unabhangigen Zufallsvariablen Xj (i = 1, 2,...). 
Die Verteilungen der Summen Yj 

Y 1 = X 1 , Y 2 = X 1 + X 2 , ..., Y n = X 1 + X 2 + ... + Xn , ... 

streben mit wachsendem n gegen die Normalverteilung. Als Faustregel gilt, 
daft die Verteilung einer Summe von mehr als 30 stochastisch unabhangigen 
Zufallsvariablen schon sehr gut annahernd mit der Normalverteilung bestimmt 
werden kann (n > 30). 

Diese Regel ermoglicht zum einen die Bestimmung von Wahrscheinlichkeiten 
unbekannt verteilter Zufallsvariablen, zum anderen kann die Bestimmung 
kompliziert zu berechnender Wahrscheinlichkeitswerte mit der 
Normalverteilung angenahert (approximiert) werden. 

Als Beispiel wurden je 1000 Zufallszahlen von im Intervall [0;1] gleichverteilten 

Zufallsvariablen erzeugt. Der Graph ihrer Dichtefunktion bildet ein Rechteck. 

Das Histogramm der Zufallszahlen lasst bei 1000 Werten deutlich das Rechteck erkennen. Bei der Summe von zwei gleichverteilten Variablen 

zeichnet sich die unimodale symmetrische Struktur schon deutlich ab, wobei zu bemerken ist, dass die Summe von zwei gleichverteilten 

Zufallsvariablen eine Dreiecksverteilung ergibt. Bei 31 Variablen ist die Naherung zur Normalverteilung schon sehr ausgepragt. 





Histogram ol mrtMx. with Normal Curve 
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Histogramm einer gleichverteilten Zufallsvariablen 



Histogram ol mltJZx. with Normal Curve 
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Histogramm der Summe von zw ei gleichverteilten Zufallsvariablen cP 



Histogram of mrMJIx. wrth Normal Curve 
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Histogramm der Summe von 31 gleichverteilten Zufallsvariablen 



3.2.1.2. 



Lineare Funktionen der Normalverteilung 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 3 vom Inhaltsverzeichnis 



Linearkombinationen norm alvertei Iter Zufallsvariablen 

Gegeben sind n normalverteilte Zufallsvariablen Xj (i = 1, ... , n), mit Xj ~ N(uj;oj 2 ). Die Linearkombination (lineare Funktion) 

n 

Y = Oi) I ai^fi I a 2 X 2 + ... + a^Xj, = q$ + ^ a^ 
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ist ebenfalls normalverteilt (Reproduktivitat der Normalverteilung), und zwar mit dem Erwartungswert 

EY = a i) | Y J a i EX i =QQ I ^^^ 

t-i 1=1 

und, falls die Xj (i = 1, ... , n) stochastisch unabhangig sind, mit der Varianz 



varF = y^afvarXj = y^g?<j? 



i=i 



i=i 



Da die Varianz jedoch echt grafter Null sein muss, muss zudem q- =£ fur mindestens ein j £ { 1 , ■ 
Verteilung des StJChprobendurchSChnittS Sind speziell die n Zufallsvariablen Xi (i = 1, 
gleichem u und gleichem a 2 , ist die Li nearkombi nation Xmit ag = 0, a-| = a2 = ... = a n = 1/n, also 
1 n 



, 7t\ gefordert werden. 

, n) samtlich normalverteilt mit 



ft 



i=l 



normalverteilt dem Erwartungswert 



n 



i-1 



und, falls die Xi (i = 1, 



, n) stochastisch unabhangig sind, mit der Varianz 



VBlX = — ^ <7~ = 



i=i 



r;- 
n 



Beispiel 

Die Firma Ziemlich&Unbekannt produziert die Giiter Ix und Ypsi. Die monatliche Produktionsmenge schwankt zufallig, so dass fur die 
produzierten Mengen die Zufallsvariablen definiert werden: Xund Y [ME]. Man weift: 

X— N(20;5) und Y — N(100;10). 
Es wird vermutet, dass Xund Y stochastisch unabhangig sind. 
Wir interessieren uns fur die monatlichen Gesamtkosten K in Crcetos (C): 

Die monatlichen Fixkosten betragen a = 10.000 C, die variablen Kosten fur X - b = 500 C und fur Y: c = 200 C. 
Die monatlichen Gesamtkosten konnen also dargestellt werden als 

K = a + bX+ cY = 10000 + 500X+ 200Y. 
Wie ist also K verteilt? Wegen der Reproduktivitatseigenschaft der Normalverteilung musste K wieder normalverteilt sein. Seine Parameter sind 

EK = a + b EX+ c EY = 10.000 + 500-20 + 200-100 = 40.000 
und 

varK = b 2 varX+ c 2 varY = 500 2 -5 + 200 2 -10 = 1.650.000. 
Also ist K — N(40.000; 1.650.000). 

Mit welcher Wahrscheinlichkeit entstehen der Firma Gesamtkosten von mindestens 42.000 C? 
Es ergibt sich 

P(K> 42000) = 1 - P(I< < 42000) = 1 -**{ *%££? ) 

1-* 2 (1,57) = 1-0,9418 = 0,0582. 
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3.2.1.3. 



Nichtlineare Funktionen der 
Normalverteilung 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 3 vom Inhaltsverzeichnis 



X 2 -Verteilung 
Beispiel 

Wir haben 3 normalverteilte, paarweise stochastisch unabhangige Zufallsvariablen X\, X2 und X3 gegeben mit den Erwartungswerten |j<|, U2 M3 
und den Varianzen o~-| 2 , 02 2 ,o^ 2 . Wir standardisieren diese Variablen und erhalten 3 standardnormalverteilte Zufallsvariablen Z-|, Z2 und Z3, 



Xi — iii X2 

L\ = , Z 2 = 



y>2 



z A = 



0[ 



(T9 






Nun werden die standardnormalverteilten Zufallsvariablen quadriert und aufsummiert. 
Wir erhalten eine neue Zufal Is variable 

Y = Z\ + Z\ + Z\ . 

Y ist x 2 -verteilt mit 3 Freiheitsgraden. 
Allgemein 

Es gilt: Die Summe von m quadrierten, stochastisch unabhangigen, 
standardnormalverteilten Zufallsvariablen ist x 2 -verteilt mit m Freiheitsgraden. 

Man sieht anhand der Grafik, dass sich die Dichtefunktion mit wachsenden 
Freiheitsgraden einer symmetrischen Kurve nahert. 

Die Wahrscheinlichkeit wird bezeichnet als P(Y < a) = fy{a\n). Das p-Quantil ist 

x 2 (p;n). 

Die Verteilungsfunktion der x 2 -Vertei lung kann nicht analytisch ermittelt werden. 
Numerische Berechnungen konnen beispielsweise aus Tabellenwerken, etwa Tabelle 
der x 2 -Vertei lung ersehen werden. Da Y furjeden Freiheitsgrad eine eigene Verteilung 
besitzt, sind in kleineren Tabellen wie oben nur Quantile nach Freiheitsgraden und 
ausgewahlten Wahrscheinlichkeiten aufgefuhrt. Es ist z. B. das 95%-Quantil (Spalte) 
der x 2 -Verteilung mit 3 Freiheitsgraden (Zeile) 

fy(0,95;3) = 7,81. Das bedeutet, die Wahrscheinlichkeit P(y < 7,81) = 0,95. 
Gilt n > 30, ist 

Z= V2X 



\/2n - I 

naherungsweise standardnormalverteilt. 

Nahere Erlauterungen zur x 2 -Verteilung, beispielsweise ihre Dichtefunktion, findet man bei Wikipedia. Da die Dichtefunktion jedoch nicht fur die 
Berechnung der Verteilungswerte unmittelbar verwendet werden kann, wird sie hier nicht angefuhrt. 

Beispiele: 

Sei Y x 2 -verteilt mit 10 Freiheitsgraden. Es ist 

'P{Y< 15,99) = 0,9 

• P(Y > 3,94) = 1 - P(Y < 3,94) = 1 - 0,05 = 0,95 

• P(3,25 < Y < 20,48) = P(Y < 20,48) - P(Y < 3,25) = 0,975 - 0,025 = 0,95 





X-X a (n) 
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Dichtefunktion der x 2 - Verteilung mit ausgewahlten 
Freiheitsgraden 
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10%-Quantil von Y : x 2 (0,l;10) = 4,87 
95%-Quantil von Y : x 2 (0,95;10)= 18,31 



Sei Y x 2 -verteilt mit 61 Freiheitsgraden. Gesucht ist P(Y *C 98)- Hier ist die Zahl der Freiheitsgrade k > 30. Es wird eine neue 
Zufallsvariable J£ _ yf s 2Y 9 ebildet - x ist naherungsweise normalverteilt wie Jsff ^/ f 2k — 1 ; 1) = A r (ll; 1) PCY < 98) 
entsprichtalsop(X < ^2 ■ 98) = P(X < 14) 



Es istOjr(14|ll;l) = $ 

Bemerkung 



,(^)- 



*jc(3) - 0,9987. 



Die x -Verteilung ist reproduktiv, d. h. die Summe von zwei stochastisch unabhangigen x -verteilten Zufallsvariablen mit m und n 
Freiheitsgraden ist wieder x 2 -verteilt mit m+n Freiheitsgraden. 

Die x 2 -Verteilung ist eine so genannte Stichprobenverteilung. 

Ubung 

1. Die Zufallsvariable X ist x 2 -verteilt mit 12 Freiheitsgraden. 

1 . Bestimmen Sie die Wahrscheinlichkeit, dass X kleiner als 6,30 ist. 

2. Bestimmen Sie die Wahrscheinlichkeit, dass X mindestens 18,55 betragt. 

3. Bestimmen Sie das 5%-Quantil der Verteilung. 

2. Die Zufallsvariable Y ist x 2 -verteilt mit 40 Freiheitsgraden. 

1 . Bestimmen Sie die Wahrscheinlichkeit, dass Y kleiner als 40 ist. 

2. Bestimmen Sie das 95%-Quantil der Verteilung. 

3. Es sei U=X+Y. 

1. Bestimmen Sie den Erwartungswert von U. 

2. Bestimmen Sie die Wahrscheinlichkeit, dass U kleiner als 40 ist. 



F-Verteilung 
Beispiel 

Wir haben die drei standardnormalverteilten Zufallsvariablen von oben und vier weitere 
Z4, Z5, Zq und Zj gegeben. Alle Variablen sind wieder stochastisch unabhangig. Der 
Quotient 

F = a 

4 
ist dann F-verteilt mit 3 und 4 Freiheitsgraden. 

Allgemein 

Der Quotient aus zwei x 2 -verteilten Zufallsvariablen, jeweils geteilt durch ihre 
Freiheitsgrade, wobei die Zufallsvariable im Zahler m und die im Nenner n 
Freiheitsgrade hat, ist F-verteilt mit m und n Freiheitsgraden. Einzelheiten dazu gibt es 
auch in der Wikipedia. Man schreibt 




Dichtef unktion der F-Verteilung nit m und n 
Freiheitsgraden 
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F — F m .„ 

x x mm 

Die Wahrscheinlichkeit wird bezeichnet als P(F < a) = fp(a\m;n). Das p-Quantil ist F(p;m;n). 

Auch die F-Verteilung liegt tabelliert vor und ist meistens nach ausgewahlten Freiheitsgraden und Quantilen tabelliert. Eine nutzliche Beziehung 
ist dabei 

F(l -p\n\m) 

Furviele Freiheitsgrade kann man sich die Faustregel merken: Sind m und n grader als 30, kann man die Quantile naherungsweise mit der 
Standardnormalverteilung ermitteln: 

F{p\m\n) & z(p) . 

Die F-verteilung ist ebenfalls eine Stichprobenverteilung. Sie ist aber nicht reproduktiv. 

t-Verteilung Beispiel 

Gegeben sind die standardnormalverteilten Zufallsvariablen von oben. 
Der Quotient 

z 1 



t = 



j zl+zl+z'i+zl 



4 
ist t-verteilt mit 4 Freiheitsgraden. 

Allgemein 

Der Quotient aus einer standardnormalverteilten Zufallsvariablen und der Wurzel einer x 2 -verteilten Zufallsvariablen mit n Freiheitsgraden, geteilt 
durch ihre Freiheitsgrade, ist t-verteilt mit n Freiheitsgraden. 

Die Wahrscheinlichkeit wird bezeichnet als P(t < a) = ff(a|n). Das p-Quantil ist t(p;n). 

Die Dichtefunktion dert-Verteilung ist, ahnlich wie die der Standardnormalverteilung, symmetrisch bezuglich des Erwartungswertes 0. Es gilt 
daher fur die Berechnung der Verteilungswerte: 

P(t < -a) = P{t > a), 

mit 

a 6 R. 

Auch die t-Verteilung ist meistens nach Freiheitsgraden und ausgewahlten Quantilen tabelliert: t-Verteilung 

Fur r? > 30 kann man die Wahrscheinlichkeiten dert-Verteilung approximativmit der Normalverteilung berechnen: 

t(p;n) zz z(p) . 

Bemerkungen: 

• Das Quadrat einer t-verteilten Zufallsvariablen ist F-verteilt. 

• Die t-Verteilung ist eine Stichprobenverteilung 

• Weitere Eigenschaften konnen in der Wikipedia nachgelesen werden. 



3.3. Approximation von Verteilungen 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 3 vom Inhaltsverzeichnis 



Approximation: Approximation heiftt Naherung, wie ja beispielsweise Alpha Proxima Centauri der uns am nachsten gelegene Stern ist. Wir 
wollen also Verteilungswerte, bei deren Berechnung wir heftige Unlustgefuhle entwickeln, mit Hilfe anderer Verteilungen annahern. Sie werden 
nun mit Recht einwenden, dass das ja heutzutage mit der Entwicklung schneller Rechner eigentlich uberflussig sei. Nun hat man aber nicht 
immer einen Computer dabei (etwa in einer Klausur) oder es fehlt die Software zur Berechnung. MS-Excel bietet zwar solche Funktionen, aber 



PDFmyURL.com 



die Umsetzung ist etwas verquer, so dass haufig ein erhohter Verstehensaufwand betrieben werden muss. Bei bestimmten Funktionswerten, wie 
groften Binomialkoeffizienten gehen schon mal Taschenrechner in die Knie. 

Approximation diskreter Verteilungen durch diskrete Verteilungen 

Die Wahrscheinlichkeitsfunktion der Hypergeometrischen Verteilung sieht so aus: 

K) " K"-f ) 

V ml- / V ru mlr I 

Haben wirals Anwendung eine Kiste mit 10 U-Eiern gegeben, von denen 3 den gesuchten Obermotz enthalten, kann man etwa die 
Wahrscheinlichkeit, bei 5 Versuchen zwei Obermotze zu erhalten, leicht errechnen - naja, relativ leicht. 

Aber betrachten wir den Fall: In einer Sendung von 500 speziellen Chips sind 100 Stuck defekt. Bei der Eingangskontrolle werden 20 Chips 
getestet. Wenn jetzt die Wahrscheinlichkeit verlangt wird, dass genau 10 defekte Chips gezogen werden, erhalt man 
/400\ /100\ 



f) 



V io } \ lo j 



(5) 



Spiiren Sie schon Unlustgefuhle? Vielleicht konnen wir uns hier die Berechnung mit der Binomialverteilung erleichtern, denn der Unterschied ist 
nur ob wir die getestete Chips zurucklegen oder nicht. Und bei 500 Chips spurt man kaum ob 20 davon heraus genommen sind ohne 
Zurucklegen, oder mit Zurucklegen. Vergleichen wir die beiden Verteilungen, fallt auf, dass beide den gleichen Erwartungswert haben: EX= n9. 
In den Varianzen aber unterscheiden sie sich, 

Binomialverteilung: 

varX = TC0(l -9) 

und hypergeometrische Verteilung: 

va T X = nfl(l - 9) A ~" 

^ } jV _ 1 

Der Unterschied liegt in dem Korrekturfaktor (N-n)/(N-1). Wird nun N sehr graft, ist der Korrekturfaktor fast Eins und wir erhalten approximativdie 
Varianz der Binomialverteilung. Wie graft ist jetzt ein groftes N? Das kommt darauf an, wie genau wir die Naherung haben wollen. Fur die 
Approximation der hypergeometrischen Verteilung durch die Binomialverteilung gibt es mehrere empfohlene Faustregeln, je nach Geschmack 
derAutoren. Eine der einfacheren Faustregeln, die man sich auch einigermaften merken kann, ist 



h(x\N;M;n) as b(x\n\ f ), wenn ^ < 0,05 



ist. Da in unserem Beispiel diese Voraussetzungen erfullt sind, berechnen wir die gesuchte Wahrscheinlichkeit als 
/20\ n olO n olO 



O ■ 0,8 10 ■ O^ 1 



Wir haben also das Modell ohne Zurucklegen durch ein Modell mit Zurucklegen angenahert. Man konnte so argumentieren: Wenn etwa 10000 
Kugeln in einer Urne sind, macht es kaum einen Unterschied, ob beim 2. Versuch noch 9999 oder 10.000 Kugeln iibrig sind. Analoges gilt fur 
die Zahl der Kugeln 1 . Sorte. Deshalb geniigt auch die Angabe des Anteils 9 dieser Kugeln an der Gesamtheit der Kugeln: 

N 

Noch eine Bemerkung: Stellt man sich allerdings bei der Berechnung dieser Binomialkoeffizienten ein bisschen dumm an, protestiert die 
Software, weil man einen Uberlauf erhalt. Man kann allerdings hier mit der Stirling-Formel noch etwas ausrichten. Oder man logarithmiert die 
Fakultaten. 

Fur sehr kleines 9 (oder sehr kleines 1-9) und sehr groftes n ist die Binomialverteilung wiederum annahernd Poisson-verteilt. Es ist namlich die 
Poissonverteilung die Grenz verteilung der Binomialverteilung fur n — ► °° und 9 — > 0. Die Berechnung der Poissonverteilung ist einfacher als die 
Berechnung der Binomialverteilung. Eine Faustregel ware hier etwa, dass eine binomialverteilte Zufallsvariable durch die Poisson-Verteilung 
angenahert werden kann, wenn 9 < 0,05 und n > 50 ist. Dann ist 
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b(x\N]M]n) &p(x\nff) . 

Uber den Umweg der Binomialverteilung kann dann auch die hypergeometrische Verteilung gegebenenfalls mit der Poisson-Verteilung 
approximiert werden: 

h(x\N;M;n) wp(a|n— ), wenn ^ < 0,05,0 < 0,05 und n > 50 



N J 



X 



ist. 



Weiter unten folgt eine tabellarische Zusammenfassung ausgewahlter Approximationen. 

Approximation diskreter Verteilungen durch die Normalverteilung 

Was ist nun aber, wenn wir wissen wollen, wie graft die Wahrscheinlichkeit ist, dass hochstens 15 defekte Chips gefunden werden: P(X< 15)? 
Hier mussen wir auf die oben beschriebene Weise 15 Wahrscheinlichkeiten ermitteln und addieren. Spatestens hier wunscht man sich eine 
Moglichkeit, so etwas schneller errechnen zu konnen. Es ware doch angesagt, wenn man da die Normalverteilung verwenden konnte. 




Binomialverteilung mit n = 15 und 9 = 0,5 und <P 
darubergelegte Normalverteilungsdichte 




Binomialverteilung mit n = 15 und = 0,3 und <P 
darubergelegte Normalverteilungsdichte 



BVmitn =1SundU = ft,i 




-2 2 4 



B 10 12 M 



Binomialverteilung mit n = 15 und = 0,1 und (P 
darubergelegte Normalverteilungsdichte 



Binomiafwahre^hfliilichiftiiHTi und 

N orm:iLjp|jroj(iirtS(iO*i 




S- 3 4 E E 7 a n 10 11 1^11 lfl M IE 17 14 13 30 21 HJ3H 2$ 



Vergleichen wir die Grafiken von den Binomialverteilungen. Es wurden hier die 
Wahrscheinlichkeiten als benachbarte Saulen dargestellt, was ja am optischen 
Erklarungswert nichts andert. 

Wir konnen deutlich erkennen, dass die Binomialverteilung fur = 0,5 symmetrisch ist. 
Hier passt sich die Normalverteilung am besten an. Je weiter 9 von 0,5 abweicht, desto 
schlechter ist die Anpassung der Normalverteilung. Die so gut wie immer verwendete 
Faustregel ist, dass man mit der Normalverteilung approximieren darf, wenn 

ist. DCirfen heiftt naturlich nicht, dass es sonst polizeilich verboten ist, sondern dass 
sonst die Anpassung unbefriedigend ist. 

Eine Normalverteilung hat den Erwartungswert u und die Varianz o 2 . Wie soil man 

diese Parameter bei der Approximation ermitteln? Nun wissen wir ja, dass der Erwartungswert der Binomialverteilung und ihre Varianz 

EX = nQ und varx = «9(1 - 0) 

sind, also nehmen wir doch einfach diese Parameter fur die Normalverteilung, also 

|i = /20 und a 2 = «0(1 -0). 
Etwas fehlt uns noch: Wir nahern hier eine diskrete Verteilung durch eine stetige Verteilung an. Diskrete und stetige Verteilungen sind zwei vollig 



Binomialverteilung nit n = 45 und = 0,3 und 
darubergelegte Normalverteilungsdichte 
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unterschiedliche Konzepte. Wir betrachten hier das Beispiel einer Binomialverteilung mit n = 45 und 9 = 0,3. 

Nahern wir P(X< 12) = B(12|45;0,3) durch O(12|450,3; 45-0,3-0,7) an, wird nurdie halbe Saule addiert, denn die stetige Verteilung kennt keine 
Saulen. Soil die ganze Saule einbezogen werden, mussen wir bis 12,5 gehen, also P(X< 12) = B(12|45;0,3) durch (p( 12,5|45-0,3; 45-0,3-0,7). 



MS 




9.5 ™ 10,5 ^ 11.5 ^ 12.5 H " 13^5 

Wenn man mit der Normalverteilung P(X < 12) berechnet, £^ 
w ird nur die halbe Saule addiert 



C.15 



9.5 1° 1G.S 11 IIjS 



t2 1*S 13 



Wenn man mit der Normalverteilung P(X < 12,5) berechnet,: 1 ! 
w ird die ganze Saule addiert 



Den addierten Wert 0,5 nennt man Stetigkeitskorrektur. 

Speziell gilt fur die Wahrscheinlichkeit P(X = a): 

P(X= a) = b(a|n;9) - Q(a+0,5|n9; n9(1-9)) - cp(a -0,5|n9; n9(1-9)). 




Approximation stetiger Verteilungen durch die Normalverteilung 

Jetzt haben wir also auch noch stetige Funktionen, die wir mit der Normalverteilung annahern wollen. Was gibt es denn da fur welche? Nun, 
welche die man oft braucht, etwa fur Schatzen und Testen, als da waren die x 2 - Verteilung, die F-Verteilung und die t-Verteilung. 

Nehmen wir uns doch mal die x 2 -Verteilung vor. Ein Blick auf ihre Dichtefunktion verrat, dass diese mit wachsendem n immer symmetrischer 
wird, sich also der Normalverteilung annahert. Wir wissen, dass die x 2 -Verteilung eine Summe von Zufallsvariablen, namlich 
standardnormalverteilten, quadrierten, ist und wir erinnern uns (gell?), dass nach dem zentralen Grenzwertsatz sich die Verteilung einer Summe 
von Zufallsvariablen der Normalverteilung annahert. Betrachten wir die mit n Freiheitsgraden x 2 -verteilte Zufallsvariable X Wir bilden eine neue 
Zufallsvariable 
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Y = V2X 

Eine gangige Faustregel besagt fur die Approximation fur die Wahrscheinlichkeit P(Y < y): 

Die Dichtefunktion t-Verteilung dagegen hat eine ahnliche Form wie die Standardnormalverteilung, denn auch sie ist symmetrisch bezuglich der 
Null. Hier genugt eine einfache Faustregel: Wenn n > 30 ist, kann man die Verteilungswerte der t-Vertei lung annahernd mit Hilfe der 
Standardnormalverteilung bestimmen: 

t(x\n) w*(a;|0;l) . 
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Tabelle der Approximationen 



Gesuchte Verteilung 



Approximation durch 



P(X < x) 



Binomial 



Poisson 



Normal 



Binomial 

B{x\nO) 



P(x I «9) 

falls n > 50 
und 0< 0,05 



$(x + O,5\n-8;n-8-(l-0)) 
Mhn> o(T=T) 



Hypergeometrische 

II(x\N;M',n) 



n 
falls — <0,05 



Ciber 
Binomialverteilung 



^/ n em M M /1 

*(i + 0,5|n-— ;n- — ■ (1 
falls n > 



A/ JV-n 

AT " iV-1 



» 






und — < 0,05 



Poisson 

P(x\X) 



<D(jc + 0,5 |X;X) falls X>9 



X 2 -Verteilung y}{x | «)— > 

P(V2X < \/2x) 



falls n > 30 



t-Verteilung 
£(^|n) S3 



Q(x 1 0;1) falls «> 30 



F-Verteilung 



O(x|0;l) falls 
m>30und«>30 



Deskriptive Statistik: Analyse eines 
Merkmals 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Einfiihrung 

Die Verfahren der deskriptiven Statistik (beschreibende Statistik, empirische Statistik) haben als Grundlage die Erhebung bzw. Beobachtung von 
Daten. Es gent hier darum, diese Daten in geeigneter Weise zusammenzufassen, sie zu ordnen, sie grafisch darzustellen usw. Ziele der 
deskriptiven Statistik: 

1. Die Daten einer empirischen Untersuchung moglichst ubersichtlich zu prasentieren, so dass die wesentlichen Informationen schnell und 
optimal aufgenommen werden konnen. Beispiele: Tabellen, Saulendiagramme, Durchschnitte, Prognosen etc. Auf eine 
verteilungstheoretische Analyse wird verzichtet. 

2. Man interessiert sich fur die unbekannte Verteilung eines statistischen Merkmals, fur Kennwerte der Verteilung usw. Da eine vollstandige 
Erfassung dieses Merkmals meist zu teuer oder auch unmoglich ist, wird man sich auf eine Teilerhebung, eine Stichprobe, beschranken. 
Man schatzt nun mit Hilfe dieser Stichprobe die gesuchten Werte. Dabei versucht man, die Wahrscheinlichkeit einer Fehlschatzung 
miteinzubeziehen. 

Analyse eines Merkmals 

Die Analyse des Merkmals hangt u.a. davon ab, welche Informationen man wunscht: 

• Verteilung: Ist sie symmetrisch oder schief, ein- oder mehrgipflig? 

• Niveau der Daten, z.B. Durchschnitt, Median? 

• Streuung der Einzelwerte: hoch oder niedrig? 
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Sind mehrere Merkmale korreliert? 



Definitionen in der deskriptiven Statistik 

Beispiel: 

Es wurden n = 7 Hunde befragt, wie gut ihnen das neue Frohlix-Trockenfutter schmecke. Die Eingabe der Fragebogen in eine Datei ergab die 
unten folgende Liste. Anhand dieser Liste sollen Begriffe der deskriptiven Statistik erklart werden. 

Die Eigenschaften, die erhoben werden, sind die Merkmale (statistische Variablen) x, y, .... Das Objekt, dessen Eigenschaften erhoben 
(erfragt, gemessen) werden, ist die Untersuchungseinheit (Me rkm alstrager). Die Menge aller statistischen Einheiten ist die 
Grundgesamtheit (statistische Masse). Die moglichen Werte, die eine Variable annehmen kann, sind die Auspragungen (Realisationen). 
Die konkrete Merkmalsauspragung von x, die eine Untersuchungseinheit Nummer i aufweist, ist der Merkmalswert (Beobachtungswert, 
Beobachtung) Xj (i=1,2, ..., n). 



Name 


Geschlecht 

Merkmal 

1=w, 2=m 

u 


Rasse 

X 


Alter 
Merkmal 

y 


Note fur Futter 

1 5 

Auspragungen 

z 


Rex 
M erkm alstrager 


2 


Schaferhund 


3 


1 


Rexona 


1 


Mischling 


5 


4 
Merkmalswert 


Lassie 


1 


Collie 


1 


2 


Hasso 


2 


Neufundlander 


2 


1 


Strolchi 
M erkm alstrager 


2 


Schnauzer 


7 


2 


Susi 


1 


Spaniel 


2 


3 


Waldi 


2 


Dackel 


1 
Merkmalswert 


5 



Es sind die Auspragungen des Merkmals 

Note: 1,2,3,4,5 
und die Auspragungen des Merkmals 

Geschlecht: 1,2. 

Skalierung des Merkmals 

Beispiel 

Grundlage des Beispiels ist die Hundetabelle von oben. Der Student Paul leistet beim Hersteller von Frohlix ein Praktikum ab. Er soil die 
Ergebnisse der Befragung prasentieren. Erfasst die Hundetabelle von oben zusammen und erhalt u.a. 

Durchschnittliches Alter eines Hundes: 



-<3 + 5 + l + 2 + 7+2 + l) = y 



a. 
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Ein befragter Hund war also im Durchschnitt 3 Jahre alt. 
Durchschnittliches Geschlecht eines Hundes: 

1(2+1 + 1 + 2 + 2 +l + 2) = y = 1,57. 

Ein Hund hatte also im Durchschnitt 1,57 Geschlecht. ????? Wiirden Sie den Studenten Paul spater in dieser Firma einstellen? 

Es ist naturlich hoherer Schwachsinn, vom Merkmal Geschlecht den Durchschnitt zu bilden. Man kann damit keinen Durchschnitt bilden, denn 
seine Auspragungen sind keine Zahlen. Geschlecht ist ein qualitatives Merkmal. Es ist anders skaliert als Alter. 

Es gibt also Merkmale mit unterschiedlichen Messbarkeitsarten. Die Vorschrift fur die Messbarkeit ist in einer Skala festgehalten. 

Nominalskala 

Merkmale wie 

• Haarfarbe: braun, blond, ...; 

• berufstatig ja/nein; 

• Margarinemarke: Panorama, Botterama, ... 

sind nominalsskaliert. Die Auspragungen des nominalskalierten Merkmals konnen nicht geordnet werden, man kann sie nur vergleichen und 
abzahlen. Es handelt sich urn qualitative Merkmale. Erhalten die Auspragungen Ziffern zugeordnet, handelt es sich nur urn eine 
Verschlusselung (Codierung): 1 = mannlich, 2 = weiblich. 

Ordinalskala 

Zwischen den Auspragungen des ordinalskalierten (rangskalierten) Merkmals existiert eine Beziehung der Form mehr oder weniger, < oder >, 
cesser oder schlechtero. a., also eine Art naturlicher Reihenfolge. 

Beispiele 

• Sterne eines Hotels: *; **; ***; ... 

• Beurteilung eines Produktes durch einen Konsumenten: Sehr gut, eher gut, eher schlecht, ganz schlecht 

• Noten: 1, 2, 3, 4, 5 

Fur die Auspragungen la(M sich also eine Rangordnung feststellen, aber dieAbstande zwischen den Rangen sind nicht festgelegt. So ist 
beispielsweise die Note Vier nicht doppelt so schlecht wie Zwei. 

Metrische Skala 

DieAbstande zwischen den Auspragungen des metrisch skalierten (quantitativen) Merkmals konnen gemessen werden. Es handelt sich bei 
den Auspragungen urn (reelle) Zahlen. 

Beispiele: Kinderzahl, Einkommen, Temperatur, ... 

Die metrischen Variablen werden noch in diskret und stetig unterschieden: 

Ein Merkmal ist diskret (=unterschieden), wenn man die Auspragungen abzahlen kann. 

Beispiel 

• Kinderzahl: 0, 1, 2, ... , 20. 

• Mein „Einkommen", wenn ich falsch parke: 3 Euro (gesparte Parkgebuhr) oder -10 Euro (Strafzettel). 
Es gibt auch abzahlbar unendlich viele Auspragungen: 

• Zahl der Ausfalle einer Maschine in einem Jahr: 0, 1,2, ... 

Ein Merkmal ist stetig (kontinuierlich), wenn sich in einem beschrankten Intervall der reellen Zahlen unendlich viele Auspragungen 
(uberabzahlbar viele) befinden. 

Beispiele: Wasserstand in einem Stausee; Gewicht eines Goldstucks; Temperatur; Korpergrofte. 
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Bemerkung: Oft sind Merkmale eigentlich diskret, aber mit sehr vielen, nah beieinanderliegenden Auspragungen, z.B. Einwohnerzahl, Preise 
(in Cents), usw. Hier definiert man das Merkmal zweckmaftigerweise als stetig, da es sich so besser analysieren la(M (quasistetig). 

Ubung 

Wie sind die folgenden Merkmale skaliert? 

• Taglicher Bierkonsum der Studentin Paula 

• - in Flaschen 

• - in Litem 

• Bekenntnis: 1= rom.-kath., 2 = evang., 3 = sonst 

• Gewicht von Bernhardinern 

• Aufgabe: schwer - leicht 

• Zahl der zustehenden Urlaubstage 

• Jeansmarke 



4.1. 


Analyse von Daten eines metrischen 
Merkmals mit wenigen verschiedenen 
Beobachtungen 


« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Behandelt wird hier ein metrisch skaliertes Merkmal, von dem nur wenige verschiedene Beobachtungen vorliegen, beispielsweise das Gewicht 
von 10 Schlachthahnchen oder die abgefullte Menge von Kakao in 6 „250"-g Packchen. Diese Konstellation wurde deshalb eigens 
hervorgehoben, weil sich damit viele Methoden der deskriptiven Statistik einfach erklaren lassen. 



4.1.1. 



Haufigkeitsverteilung 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Urliste 

Beispiel 

n = 10 „Pfundschalen" Erdbeeren wurden nachgewogen. Es ergab sich durch Nachwiegen die Urlis 



X1 


*2 


*3 


x 4 


*5 


X6 


*7 


X8 


xg 


*10 


480 


500 


510 


450 


400 


490 


505 


510 


480 


480 



mit dem Merkmal x: Gewicht eines Schalchens (g). Die Werte wurden in der Reihenfolge der Erhebung, also ungeordnet, als Urliste erfasst. 
Diese Art der Darstellung ist unubersichtlich und daher nur fur wenige Beobachtungen geeignet. 

Urlisten konnen auch mehrere, unterschiedlich skalierte Merkmale enthalten. Beispielsweise ist die Tabelle mit den Hunden eine Urliste. 

Haufigkeitsverteilung 

Liegt ein metrisch skaliertes Merkmal oder ein ordinalskaliertes Merkmal mit vielen Auspragungen vor, kann man zunachst einmal die Urliste der 
Grade nach ordnen, urn einen gewissen Eindruck zu erhalten. 

Beispiel 

Die Indizes in den eckigen Klammern bedeuten, dass die Beobachtungen der Grade nach geordnet wurden. 



x m 


x [2] 


x [3] 


x [4] 


x [5] 


x [6] 


x m 


x [8] 


x [9] 


X[10] 


400 


450 


480 


480 


480 


490 


500 


505 


510 


510 
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Man erkennt nun, dass iiber die Halfte der Schalchen untergewichtig waren. 

Allerdings ist das Sortieren muhsam, fehleranfallig und doch nicht sehr informativ Mit dem Zweig-Blatter-Diagramm (stem-and-leaf display) 
kann man jedoch sowohl metrische Beobachtungen relativ leicht sortieren als auch eine erste Haufigkeitsverteilung erzeugen. 

Zweig-Blatter-Diagramm 

Beispiel: 

Fur das Jahr 2003 liegt das reale Wachstum des Bruttoinlandsprodukts fur 38 europaische Staaten vor (© Statistisches Bundesamt, Wiesbaden 
200 [1]#) 

4,7 1,1 3,9 -0,1 4,7 1,8 0,2 4,8 1,4 1,9 0,3 5,2 7,4 9,0 2,6 0,4 0,7 7,2 -0,8 0,3 0,7 3,7 -1,3 4,9 7,3 1,6 -0,5 4,0 4,2 2,3 2,4 2,9 5,8 4,8 2,9 2,1 
4,7 2,0 

Wir wollen die Daten ordnen und einen Eindruck von der Haufigkeitsverteilung gewinnen. Dazu werden wirjetzt ein Zweig-Blatter-Diagramm oder, 
fur Anglophile, ein Stem-and-Leaf-Display erzeugen. 



Zuerst wird der Zweig gemacht - aus den Einsern: 



Dann hangen wir die Blatter an den Zweig, und zwar, indem wir von 
links nach rechts durch die Daten wandern: 

Der erste Wert ist 4,7. Das Blatt 7 wird an den Zweig 4 gehangt 



-1 




-1 




-0 




-0 














1 




1 




2 




•2 




■1 




3 




4 




4 


7 


5 




5 




6 




6 




7 




7 




8 




S 




9 




9 




Derzv 


veite Wert ist 1,1, das Blatt 1 wird an die 1 gehangt 


Esfolgen3,9-0,1 4,7 1,8... 


-i 




-1 




-0 




-0 


1 












l 


l 


1 


13 


2 




2 




3 




3 


9 


4 


7 


4 


77 


5 




5 




6 




6 




7 




7 




8 




8 




9 




9 
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Schlieftlich erhalten wir 



Diese Prozedur war schnell erledigt. Wir bekommen schon einen guten 
Eindruck von der Verteilung der Beobachtungswerte. Kippen wir das 
Diagramm um 90°, erkennen wireineArt Saulendiagramm. Aufterdem 
konnen wir nun die Werte schnell der Grofte nach sortieren. Wir 
erhalten nun unser Stengel-Blatter-Diagramm: 



1 


3 


D 


185 





234737 


1 


18496 


2 


6349910 


3 


97 


4 


77890287 


5 


28 


G 




7 


423 


8 




9 






1 


3 


D 


158 





233477 


1 


14689 


2 


0134699 


3 


79 


4 


02777889 


5 


28 


G 




7 


234 


3 




9 






Fur unsere Zwecke ist das Stem-and-Leaf-Display jetzt ausreichend. Ein Stem-and-Leaf-Display kann aber auch noch mehr Einzelheiten 
enthalten. Ist die Zahl der erhobenen Beobachtungen sehr graft, konnen die Werte in Klassen tabellarisch zusammengefaftt werden. Diese Art 
der Analyse erfolgt weiter unten. 

Summenfunktion 

Beispiel 

Ein Autohaus hat von seinen n = 10 Filialen die Zahl der verkauften 
LKWs des letzten Jahres vorliegen. Es folgt die Urliste mit den Xj 
geordnet: 



x m 


x [2] 


x [3] 


x [4] 


x [5] 


x [6] 


x m 


x [8] 


x [9] 


X[10] 


1 


5 


8 


8 


10 


10 


10 


17 


22 


24 



Wir wollen die absolute Summenfunktion S(a) bestimmen. S(a) gibt 
an, wieviel Beobachtungen Xj < a sind: 

Zum Beispiel: 

• S(17) = 8, also sind 8 Beobachtungen hochstens 17 

• S(8) = 4, also gibt es 4 Filialen, die hochstens 8 LKWs verkauft 
haben 

Wir leiten nun die Summenfunktion her, von links nach rechts: 

• Zum Beispiel: S(0,1) = 0, denn keine Filiale hat hochstens 0,1 
LKW verkauft. Ebenso ist S(0,9) = 0, usw... also 



Absolute Summenfunktion 
£(a) Zahl der Filiaten 












































n 
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■ 


4 -2 


) 2 4 6 8 10 12 14 18 18 20 22 24 26 28 80 82 
Zatii der vcrKaultcn LKWs a 


absolute Summenfunktion <P 



S(a) 



fur a < 1 . 



Zum Beispiel: S(1) = 1, denn genau eine Filiale hat hochstens einen LKW verkauft. Ebenso ist S(3) = 1, denn es hat auch eine Filiale 
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hochstens drei LKWs verkauft. Ebenso S(4,9999) = 1 .. 


., also 


; S (a) =1 fur 1 < a < 5. 



Zum Beispiel:S(5) = 2, also 



S (a) = 2 fur 5 < a < 



usw... schlieftlich erhalten wir 

S (a) = 10 fur a > 24. 



Tragen wir die ermittelten Funktionswerte in die Grafik ein, sehen wir sofort, dass wir eine Treppenfunktion erhalten. 

Die absolute Summenfunktion S(a) ist die Zahl der Beobachtungen xi < a . Die relative Summenfunktion gibt stattdessen die Anteile der 
Beobachtungen an der Urliste an: 

S(a) 



S*{a) = 



if 



Der Informationswert der kumulierten Haufigkeit S(n) in der Grafik erschlie&t sich Ungeubten eher weniger. Aber man kann anhand der Grafik 
sofort Aussagen uber die Verteilung machen. Man sieht beispielsweise sofort, daft z.B. 7 Werte kleiner als 14 sind, es haben also 70% der 
Filialen hochstens 14 LKWs verkauft. 



4.1.2. 



Lageparameter 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Lageparameter 

Der Lageparameter gibt an, auf welchem Niveau die Daten liegen. 

Arithmetisches Mittel 

Das arithmetische Mittel ist landlaufig als „Durchschnitt" bekannt. Es ist eigentlich nur fur metrisch skalierte Merkmale (Problem 
Notendurchschnitt) geeignet. Es berechnet sich als 

i A 



.(■ 



=;£; 



it 



i=l 



Beispiel Pfundschalen Erdbeeren: 

x = ^(400 + 450 + 480 + 480 + 480 + 490 + 500+505 + 510 + 510) 
= 41^ = 480,5 

Es waren die Schalchen also im Durchschnitt untergewichtig. 

Median oder Zentralwert 

Sind die Beobachtungswerte der Grofte nach geordnet, also xpj , xpj , xpj , ... , X[ n ], ist der Median z die Stelle, die die Teilgesamtheit in zwei 
gleiche Halften teilt. Er kann fur rang- und metrisch skalierte Merkmale verwendet werden. 

n ungerade 
Beispiel fur n = 7 
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Es wurden 7 Autofahrer nach ihren Fahrtkosten befragt. Es ergab sich fur das Merkmal x: Monatliche Ausgaben fur Benzin (in Euro) die Liste 



x m 


x [2] 


x [3] 


X[4] 


x [5] 


x [6] 


x m 


20 


50 


100 


170 


200 


200 


280 



Es ist also der Median z = 170. 

n gerade 

Beispiel fur n = 10 (Erdbeeren) 



x m 


x [2] 


x [3] 


X[4] 


x [5] 




x [6] 


x m 


x [8] 


x [9] 


X[10] 


400 


450 


480 


480 


480 


z 


490 


500 


505 


510 


510 



Der Median liegt zwischen dem 5. und 6. Beobachtungswert. Man nimmt hier den mittleren Wert 

z = -(480 | 490) = 485. 



Wir berechnen also den Median so: 

77+1 
n ungerade: z ist der te Wert xm, also 



Z=X [ *±L ] 



n n 

n gerade: z liegt zwischen dem — ten und dem — -|- lten Beobachtungswert xpj, also 

i 



z = 2^1?) + x il+ 1 )) 



Bemerkungen: 

• Der Median kann fur ordinal- und metrisch skalierte Werte verwendet werden. 

• Bei sehr groftem und geradem n kann man vereinfachend 

z = x^ 

setzen. 

Vergleich Median -arithmetisches Mittel 



Beispiel: 

Eine Autozeitschrift hat n = 7 PKWs einer bestimmten Marke getestet. Unter anderem wurde auch untersucht, ob das Auto zuverlassig 
anspringt. 

Es ergab sich die geordnete Urliste 

1 1 1 1 1 2 14 

Wir erhalten als durchschnittliche Zahl der Startversuche 

x = ^(1 + 1 + 1 + 1 + 1 + 2 + 14) = — = 3- 

Wir wurden hier also als Ergebnis erhalten: „Ein PKW sprang im Durchschnitt erst nach 3 Versuchen an". Irgendwie erscheint einem das nicht 
gerechtfertigt. Bis aufeinen PKW, der offensichtlich einen Ausreifter darstellt, sprangen ja alle Fahrzeuge zuverlassig an. 
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Wir verwenden nun den Median als Lageparameter: Der Median ist der 4. Wert, also z = 1. Hier ist also der Median eher zutreffend, doch so 
ganz zufrieden sind wir auch nicht, denn immerhin gab es ja auch 2 und 14 Versuche. 

Wir sehen also, dass bei Verwendung des Median sehr viel Information der Daten verloren geht, andererseits reagiert aber das arithmetische 
Mittel empfindlich auf AusreiGer in den Daten. 

Es gibt aber auch Kompromisse zwischen diesen beiden Extremen, beispielsweise das getrimmte Mittel: 

1+1+1+1+2 6 
XT= 5 = 5 = M 

Es werden in der geordneten Urliste links und rechts jeweils ein oder mehrere Werte gestrichen. Aus den restlichen Beobachtungen berechnet 
man dann ein arithmetisches Mittel. Dieser Mittelwert erscheint eher die Sachlage zutreffend zu beschreiben. Man nennt Parameter, die nur 
schwach auf AusreiGer reagieren, resistente Parameter. Neben dem getrimmten Mittel gibt es noch mehrere andere Ansatze. 

Der Vergleich des Medians mit dem arithmetischen Mittel kann als Ausreifteranalyse verwendet werden. Weicht der Median auffallig vom 
arithmetischen Mittel ab, sollten die Daten auf AusreiGer oder stark schiefe Verteilungen hin uberpruft werden. 

Weitere Lageparameter sind etwa der Modalwert, geometrisches Mittel oder harmonisches Mittel. 



4.1.3. 



Streuungsparameter 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Varianz als Streuungsparameter 

Der Lageparameter allein reicht fur die Beschreibung einer Datenmenge nicht aus (analoges Problem wie bei Zufallsverteilungen). Information 
tiber die Streuung der Beobachtungswerte liefert ein Streuungsparameter. Es kommen verschiedene Kennwerte als Streuungsparameter in 
Betracht, beispielsweise die Varianz, die Spannweite, der Quartilsabstand und der Variationskoeffizient. 



Varianz 

Am haufigsten wird als Kennwert die Varianz verwendet, da sie wahrscheinlichkeitstheoretisch am besten zu untersuchen ist. Die Varianz sind 
die mittleren quadratischen Abweichungen der Einzelwerte Xj vom arithmetischen Mittel 

i 



s 2 = 



n — 



1 i i 



Der Nenner n-1 wirkt vielleicht etwas befremdlich. Allerdings hat die Verwendung von n-1 statt n wahrscheinlichkeitstheoretische Vorzuge, wenn 

man die Varianz der Verteilung eines Merkmals mit s 2 schatzen mochte. Man nennt dieses Art der Varianz inferentielle Varianz. 

Beispiel 

Eine Firma mochte einen Kachelofen auf den Markt bringen, der fur einen Komplettpreis zu erwerben ist. Fur die Kalkulation dieses Preises 
benotigt die Firma Informationen uber die Montagezeit fur einen Kachelofen. Bei der Endmontage von 11 Kachelofen ergaben sich die Zeiten 



2,5 3 3 3,3 3,6 3 2,3 3 3,1 3,2 3 



Die Varianz der Montagezeiten soil bestimmt werden. Nach der obigen Formel muss zunachst das arithmetische Mittel bestimmt werden: 

x = ^(2,5 + 3 + 3 + 3,3 + 3,6 + 3 + 2,3 + 3 + 3, 1 + 3,2 + 3) 

Dann erhalten wir als Varianz 

i 



s 2 = — «2, 5 - 3) 2 + (3 - 3f + (3 - 3) 2 + ... + {3 - 3) 2 ) 
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= ^(0,25 + + + 0,09 + 9,36 + + 0,49 + + 0,01 + 0,04 + 0) 

Verzichtet man auf eine Schatzung, kann man auch die deskriptive Varianz 
1 " 

fur die Beschreibung von statistischen Daten verwenden, was aber hier zur Vermeidung von Verwechslungen unterlassen wird. 

Bei der manuellen Berechnung von s 2 ist es oftmals muhsam, erst die einzelnen Differenzen Xj - x zu bilden und dann zu quadrieren. Mit Hilfe 

des Verschiebungssatzes kann die laufende Differenzenbildung vermieden werden. Betrachten wir die Summe 
n 

Diese Summe lasst sich zerlegen in 

Q = Ys%l-nx 7 . 

Setzt man den Ausdruck oben ein, erhalt man fur die Varianz 

n — 1 rc — 1 " 

Beispiel: 

s 2 - -^(2,5 2 + 3 2 + 3 2 + ...+3 2 -ll-3 2 ) 
= ^-(100,24 -99) = 0,124ft 2 

Da die Varianz ein quadratischer Ausdruck ist, hat sie z.B. auch die Einheit h 2 wenn die Xj die Einheit h haben. Urn die Varianz anschaulicher 

zu machen, kann man ihre Quadratwurzel, die Standardabweichung s betrachten: 

Beispiel 

$= y/0,12Ah 2 ttQ,35h 

also ca. 20 Minuten. Man konnte etwas flapsig sagen, dass die Montagezeit eines Ofens im Mittel 3 Stunden +/- 20 Minuten betragt. 
Auch die Varianz reagiert empfindlich auf Ausreifter. Es gibt hier resistente Streuungsparameter, die weiter unten behandelt werden. 



^ 2 Analyse von Daten, die in 



<< hoch zum Anfang vom Inhaltsverzeichnis 



Haufigkeitstabellen zusammengefasst sind « hoch ZU m Kapitei 4 vom mhaitsverzeichms 

In den letzten Abschnitten lernten wir, wie man Daten eines stetigen, metrischen Merkmals, die als Urliste vorlagen, analysiert. Wir wollen nun 
Daten untersuchen, die man in Haufigkeitstabellen zusammenfassen kann. Im Gegensatz zur obigen Urliste konnen hier die Daten ubersichtlich 
grafisch dargestellt werden. Man unterscheidet im Wesentlichen Daten eines metrischen Merkmals mit wenigen verschiedenen Auspragungen 
und grofte Mengen von Daten mit vielen verschiedenen Auspragungen, die man in Klassen zusammenfasst. 



4.2.1 . Merkmale mit wenig Auspragungen 



: hoch zum Anfang vom Inhaltsverzeichnis 
: hoch zum Kapitei 4 vom Inhaltsverzeichnis 
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Zu den Merkmalen mit wenig verschiedenen Auspragungen gehoren nominal skalierte, ordinal skalierte und metrisch skalierte 
Merkmale. Da sie nur wenig Kategorien haben, kann man sie in Haufigkeitstabellen zusammenfassen. Man nennt sie ha uf bare 
Merkmale. 

Beispiele fur Merkmale mit wenigen moglichen Auspragungen: 

• nominal skaliert: Augenfarbe von Studierenden 

• ordinal skaliert: Note der Kundenzufriedenheit 

• metrisch skaliert: Zahl der Autos in einem Haushalt 

Bemerkung: Metrisch skalierte stetige Merkmale sind nicht unmittelbar haufbar, weil zu viele verschiedene Beobachtungen vorliegen. 



4.2.1.1. 



Verteilung 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Wenn man vorliegende Daten analysiert, wird man sich zunachst fur die Verteilung des Merkmals interessieren: 

1st die Verteilung der Variablen einigermaften symmetrisch oder stark schief? Sind Ausreifter in den Daten? 1st die Verteilung eingipflig oder 
mehrgipflig? Der Statistiker freut sich meistens uber eine symmetrische Verteilung, weil man hier haufig die Vorteile der Normalverteilung 
ausnutzen kann. 

Werkzeuge fur die Analyse sind hierbei die Haufigkeitstabelle, die Summenfunktion und diverse Grafiken, denn bei einem Merkmal mit wenig 
Auspragungen konnen attraktive Diagramme erstellt werden. 



<< hoch zum Anfang vom Inhaltsverzeichnis 

4.2.1.1.1. Haufigkeit 

<< hoch zum Kapitel 4 vom Inhaltsverzeichnis 

Haufigkeitstabelle 

Urn eine Urliste von Beobachtungen eines Merkmals mit wenig Auspragungen aufzubereiten, wird als erster Schritt der Analyse das Zahlen des 
Auftretens der Realisationen stehen. Die Ergebnisse konnen in einer Haufigkeitstabelle zusammengefasst werden. Anhand der Daten eines 
nominalskalierten Beispiels wollen wir uns das Prinzip einer Haufigkeitstabelle ansehen. 

Nominalskaliertes Merkmal 

Beispiel 

Es wurden 50 Personen telefonisch bezuglich gewisser Konsumpraferenzen befragt. Unter anderem erhob man den Familienstand. Es ist das 
Merkmal 

x: Familienstand - mit den Auspragungen 1=ledig, 2=verheiratet, 3=geschieden, 4=verwitwet. 

Es ergab sich die Urliste 



2212331232344121123212212 
2214224312213231223222133 



Wir wollen nun die Daten in einer Haufigkeitstabelle zusammenstellen: 



j 


Familienstand 


absolute Haufigkeit 


relative Haufigkeit 


1 


ledig 


12 


0,24 


2 


verheiratet 


23 


0,46 


3 


geschieden 


11 


0,22 
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4 


verwitwet 


4 


0,08 


Z 




50 


1,00 



Es sind insgesamt n = 50 Untersuchungseinheiten erhoben worden. Die (absoluten) Haufigkeiten rij (j = 1, ... , 4) verteilen sich auf m = 4 
Kategorien (kategoriale Variable), wie in der Haufigkeitstabelle aufgelistet. 

Wenn man sich fur den Anteil der einzelnen Auspragungen an der Gesamtheit interessiert, kann man auch die relativen Haufigkeiten 
bestimmen: 

^ = ^T 
n 

Es ist naturlich 

m m, 

y] 71 j = n bzw. /2 Pj = 1 

3=1 3=1 

Fur die Verteilung von Merkmalen mit wenig Auspragungen kann man sehr ansprechende Grafiken erstellen. 

Ordinalskaliertes Merkmal 

Beispiel: 

Bei der letzten Wiki-Matheklausur der Wikiversity ergaben sich die Noten wie folgt: 

12x 1, 15x2, 8x3, 3x4, 2x5 

Hier erhalt man die unten folgende Haufigkeitstabelle: 



j 


Note 
X J 


absolute Haufigkeit 
n J 


relative Haufigkeit 

Pj 


1 


sehr gut 


12 


12/40=0,3 


2 


gut 


15 


0,375 


3 


befriedigend 


8 


0,2 


4 


ausreichend 


3 


0,075 


5 


ungenugend 


2 


0,05 


I 




40 


1 



Auch hier bieten sich zur Veranschaulichung der Haufigkeiten Grafiken wie oben an. 

Metrisch skaliertes Merkmal 

Beispiel 

Eine mainfrankische Weinbaustadt feiert ihr alljahrliches Weinfest, bei dem auch die Winzerei Wavoma ihre Produkte anbietet. Sie verkauft 
Wein in Flaschen mit 0,5, 0,7, 1 und 2 Litem zu je 4, 5, 7 und 10 Euro. Es wurden am Sonntag Vormittag eingenommen (Merkmal x: Preis einer 
Flasche Wein (Euro)): 

4447777 10 555 10 447755555 10 10 10 7 



Wir erhalten die unten folgende Haufigkeitstabelle. 



Preis fur eine Weinflasche absolute Haufigkeit relative Haufigkeit 
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J 


X J 


n J 


Pj 


1 


4 


5 


5/25=0,2 


2 


5 


8 


0,32 


3 


7 


7 


0,28 


4 


10 


5 


0,2 


I 




25 


1 



Grafische Darstellungen 

Eine weitere Art, Verteilungen eines Merkmals ubersichtlich darzustellen, ist die grafische Darstellung. Mit hoher Aussagekraft der Grafik geht 
meist ein Informationsverlust einher, so daft die Grafik die Tabelle nicht ersetzen, sondern nur unterstutzen kann. 

Da Grafiken auf einen Blick informieren sollen, sollen sie nicht uberladen sein. Haufig verwendet werden heute Piktogramme, d.h. Diagramme, 
die den Sachverhalt optisch anschaulich verdeutlichen. 

Fur beliebig skalierte Merkmale mit wenigen Auspragungen bieten sich eine Vielzahl grafischer Darstellungen an, darunter insbesondere 
Stabdiagramm, Saulendiagramm, Kreisdiagramm. Diese Diagramme eignen sich nicht fur Urlisten mit vielen verschiedenen 
Beobachtungswerten. 

Ubung: Warum nicht? 



Stabdiagramm bzw. Saulendiagramm 

Auf der „x-Achse" werden die verschiedenen Auspragungen des Merkmals markiert. Dann werden die entsprechenden Haufigkeiten als Stab 
oder Saule senkrecht auf der Abszisse abgetragen. 

Es sind hier anhand des obigen Beispiels bezuglich des Familienstandes die Saulendiagramme fur die absoluten und relativen Haufigkeiten 
dargestellt. Wir sehen, dass die Struktur der Diagramme identisch ist. 



Saulendiagramm 


1 20 

X 

| 10 

I 5 






n 














\£ 








11 










4 


n 


ledig verheiralet gtienjfrderl 
F,i:-il s- 1 


verwitwel 


Absolute Haufigkeiten des Familienstandes 


(P 



0.5 
^03 


Saulendiagramm 
n 4£ 















Z 

- 0,2 

i 

^ 0.1 





u .■■> 






»,» 


o.os 

n 


1 2 3 

Familienstand 


4 


Relative Haufigkeiten des Familienstandes 


iP 



Kreisdiagramm 



lm l/rnicrlionromnn \Mirri r 



olont nioUonfinl/oito 
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einzelnen Kategorien des Merkmals werden als „Tortenstucke" eingetragen, wobei 
deren Flache proportional zur Haufigkeit ist. Der zur Haufigkeit rij gehorende Winkel cij 
eines Segments berechnet sich dann aus der Verhaltnisgleichung 



rt ., 



U\ 



X J = _ 

360 n 

Sollen zwei verschiedene Gesamtheiten mit verschiedenen Gesamthaufigkeiten n| und 
n N mittels zweier Kreisdiagramme verglichen werden, kann man die Flachen der Kreise 
proportional zu den n| und n N darstellen. 

Fur die Darstellung von Kreisdiagrammen gibt es heutzutage genugend 
Anwendersoftware, so dass eine genauere Erlauterung unterbleiben kann. 




Kreisdiagramm: Relative Haufigkeiten des Familienstandes £3 



4.2.1.1.2. 



Summenfunktion 



Summenfunktion 



: hoch zumAnfang vom Inhaltsverzeichnis 
: hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Man interessiert sich fur Fragen wie „Wieviel % der Kunden gaben hochstens 5 Euro fur eine Flasche Wein aus?" Oder „Wieviel Einwohner 
Deutschlands sind mindestens 65 Jahre alt?". Man konnte nun die einzelnen Haufigkeiten einer Haufigkeitstabelle aufsummieren und so den 
Wert ermitteln, aber einfacher ist es, schon in der Haufigkeitstabelle die Haufigkeiten (abs. oder rel.) laufend aufeuaddieren. Es ergeben sich die 
Summenhaufigkeiten als kumulierte Haufigkeiten Sj (absolut) bzw. Sj* (relativ) . Aus den Summenhaufigkeiten laftt sich dann einfach die 
Summenfunktion bestimmen. 

Summenhaufigkeiten sind nur sinnvoll, wenn man das Merkmal nach Grofle ordnen kann, also nur bei ordinal oder metrisch skalierten 
Merkmalen. Aus der Summenhaufigkeit kann man die Summenfunktion ermitteln. 

Beispiel der verkauften Weinflaschen 



j 


Preis fur eine Weinflasche 
X J 


absolute Haufigkeit 
n J 


relative Haufigkeit 
Pj 


absolute Summenhaufigkeit 


relative Summenhaufigkeit 

c*. 

5 J 


1 


4 


5 


5/25=0,2 


5 


0,20 


2 


5 


8 


0,32 


13 


0,52 


3 


7 


7 


0,28 


20 


0,80 


4 


10 


5 


0,2 


25 


1,00 


I 




25 


1 







Ci'ir riia d-o+/=Jlii 
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der Urliste geordnet vorliegen. Die Haufigkeitsverteilung enthalt alle 
Werte der Urliste geordnet. Analog zu oben kann man sich 
beispielsweise uberlegen: 

20 Kunden zahlten hochstens 7 Euro fur eine Flasche, also S(7) 
= 20. 

So konnen wir wieder wie vorher die Summenfunktion von links her 
aufbauen: 

Kunden zahlten hochstens 2 Euro fur eine Flasche, also S(2) = 




Nun konnen wir die kumulierten Haufigkeiten auch aus der Grafik 
ablesen: z.B. S(6) = 13, es sind also 13 Flaschen zu einem Preis von 
hochstens 6 Euro verkauft worden. 









25 

m 

I 

<n as, . 

£ 1D 

m 

1 ID 
1 














2 





































































E 














> 2 4 6 i 
Preis fUr Flasche x 


10 i 






Summenfunktion <P 



4.2.1.2. 



Lageparameter 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Arithmetisches Mittel 

Beispiel 

Es wurden in einem Einkaufszentrum n = 20 Kunden bezuglich der Kinderzahl befragt. Wir erhielten die geordnete Urliste 

00001111122222333455 



Es resultierte die Haufigkeitsverteilung 



j 


Zahl der Kinder 
X J 


absolute Haufigkeit 
n J 


relative Haufigkeit 
Pj 


Xjllj 


XjPj 


1 





4 


0,2 








2 


1 


5 


0,25 


5 


0,25 


3 


2 


5 


0,25 


10 


0,5 


4 


3 


3 


0,15 


9 


0,45 


5 


4 


1 


0,05 


4 


0,2 


6 


5 


2 


0,1 


10 


0,5 


I 




20 


1 


38 


1,9 



Wir bestimmen das arithmetische Mittel als 

5 = ^(0 + + + 0+1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + 2 + 3 



+ 3 + 3 + 4 + 5 + 5) = %= 1,9 



Wir konnen das Mittel aber auch so berechnen: 
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1 'S8 

s=— (4- + 5 -1 + 5 -2 + 3 -3+ 1-4 I 2 -5) = — = 1,9 

was in Formelschreibweise ergibt 
1 rn 

Ermitteln wir das arithmetische Mittel von Hand, konnen wir in der Haufigkeitstabelle die Summanden xp^ in der jten Zeile eintragen und 
aufsummieren. 

Alternativ konnen wir das arithmetische Mittel mit Hilfe der relativen Haufigkeit p-j ermitteln: 

771 

Zur Verdeutlichung ist auch diese Variante in der Haufigkeitstabelle aufgefuhrt. 

Fur ordinal- Oder nominalskalierte Merkmale ist das arithmetische Mittel nicht qeeiqnet. 



Entsprechende Uberlegungen gelten auch fur die Varianz s z der Stichprobe. 

Median 

Beispiel mit den verkauften Weinflaschen 

Wir haben die Urliste nun geordnet. 



44444555555557777777 10 10 10 10 10 



Der Median teilt die kleineren 50% der Datenwerte von den 50% grofteren Werten ab. Also liegt hier der Median auf dem 13. Beobachtungswert. 

Bei Daten in Haufigkeitstabellen liegen die Werte schon zwanglaufig geordnet vor. Es muss nur die Kategorie gefunden werden, die den Median 
enthalt. 



j 


Preis fur eine Weinflasche 
X J 


absolute Haufigkeit 
n J 


absolute Summenhaufigkeit 


1 


4 


5 


5 


2 


5 


8 


13 


3 


7 


7 


20 


4 


10 


5 


25 


I 




25 





Anhand der Summenhaufigkeiten konnen wir sehen, dass der 13. Wert gerade noch in der 2. Kategorie liegt. Diese Kategorie ist die 
Einfallsklasse des Medians. 
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4.2.1 .3. Streuungsparameter 



« hoch zumAnfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Hierwollen wirdie Berechnung der Varianz eines haufbaren metrischen Merkmalsansehen. Unsere Uberlegungen laufen analog zum 
arithmetischen Mittel. Wir betrachten das 

Beispiel mit den verkauften Weinflaschen 

Aus der Urliste mit 25 Beobachtungen: 

44444555555557777777 10 10 10 10 10 



berechnen wir die Stichprobenvarianz aus 

In dieser Formel ist Xj die i. Beobachtung aus der Urliste. 

Analog zum arithmetischen Mittel eines Merkmals mit wenig Auspragungen werden wir aber nicht die obige Formel fur die Varianz verwenden, 
sondern die Vorteile der Haufigkeitstabelle niitzen. Wir konnen namlich die Stichprobenvarianz berechnen als 

i 



3 = 



71 X J=l 



wobei die Xj jetzt die verschiedenen Auspragungen des Merkmals darstellen. 



j 


Preisfiir eine 
Weinflasche 

X J 


absolute 
Haufigkeit 

n J 


Xjllj 


{xj-x) 2 


(xj - xfrij 


1 


4 


5 


20 


5,5696 


27,8480 


2 


5 


8 


40 


1,8496 


14,7968 


3 


7 


7 


49 


0,4096 


2,8672 


4 


10 


5 


50 


13,2496 


66,2480 


Z 




25 


159 




111,7600 



Zunachst benotigen wir den Mittelwert x- Er berechnet sich wie in Lageparameter als 

1 ™ 159 „ _ 

x = — > XjTij = = 6, 36. 

n^ n 25 

Wir erhalten nun 

s 2 = — -111, 7600 « 4, 66. 

Der Computer kann das leicht ermitteln. Mochten wirjedoch die Varianz handisch ausrechnen, finden wir den „krummen" Mittelwert als storend. 
Wir konnen naturlich auch hier den Verschiebungssatz anwenden. Es gilt namlich fur die benotigte Quadratsumme: 
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Q = Y,( x j - x) 2 ■ nj = (£>; ■ nj) -nx 2 . 
i-i i-i 

Wir berechnen sukzessive in unserer Haufigkeitstabelle die Xj 2 und Xj 2 rij und erhalten zunachst fur Q 

Q= 1123- 25 -6,36 2 = 111,76 

und fur die Varianz 

111,76 



s = 



25-1 



= 4,66. 



j 


Preisfiir eine 
Weinflasche 

X J 


absolute 
Haufigkeit 

n J 


Xjllj 


X 2 

X J 


Xj 2 nj 


1 


4 


5 


20 


16 


80 


2 


5 


8 


40 


25 


200 


3 


7 


7 


49 


49 


343 


4 


10 


5 


50 


100 


500 


I 




25 


159 




1123 



4.2.2. 



Metrisches Merkmals mit vielen 
Auspragungen 



« hoch zumAnfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Varianz alsStreuungsparameter 

Der Lageparameter allein reicht fur die Beschreibung einer Datenmenge nicht aus (analoges Problem wie bei Zufallsverteilungen). Information 
tiber die Streuung der Beobachtungswerte liefert ein Streuungsparameter. Es kommen verschiedene Kennwerte als Streuungsparameter in 
Betracht, beispielsweise die Varianz, die Spannweite, der Quartilsabstand und der Variationskoeffizient. 

Varianz 

Am haufigsten wird als Kennwert die Varianz verwendet, da sie wahrscheinlichkeitstheoretisch am besten zu untersuchen ist. Die Varianz sind 
die mittleren quadratischen Abweichungen der Einzelwerte Xj vom arithmetischen Mittel 

i a 



s 2 = 



n-\ 



jt — l 



Der Nenner n-1 wirkt vielleicht etwas befremdlich. Allerdings hat die Verwendung \Aon n-1 statt n wahrscheinlichkeitstheoretische Vorzuge, wenn 

man die Varianz der Verteilung eines Merkmals mit s 2 schatzen mochte. Man nennt dieses Art der Varianz inferentielle Varianz. 

Beispiel 

Eine Firma mochte einen Kachelofen auf den Markt bringen, der fur einen Komplettpreis zu erwerben ist. Fur die Kalkulation dieses Preises 
benotigt die Firma Informationen uber die Montagezeit fur einen Kachelofen. Bei der Endmontage von 11 Kachelofen ergaben sich die Zeiten 

2,5 3 3 3,3 3,6 3 2,3 3 3,1 3,2 3 



Die Varianz der Montagezeiten soil bestimmt werden. Nach der obigen Formel muss zunachst das arithmetische Mittel bestimmt werden: 
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x = ^(2,5 + 3 + 3 + 3,3 + 3,6 + 3 + 2,3 + 3 + 3,1 + 3,2 + 3) 
= g = 3& 

Dann erhalten wir als Varianz 

s 2 = ^((2,5-3) 2 I (3-3) 2 l (3-3) 2 +...+{3-3) 2 ) 

= ^(0,25 + + + 0,09 + 0,36 + + 0,49 + + 0,01 + 0,04 + 0) 

= ^ = 0,124/i 2 

Verzichtet man auf eine Schatzung, kann man auch die deskriptive Varianz 
1 



= - X>< - x ? 



n 



i=l 



fur die Beschreibung von statistischen Daten verwenden, was aber hier zur Vermeidung von Verwechslungen unterlassen wird. 

Bei der manuellen Berechnung von s 2 ist es oftmals muhsam, erst die einzelnen Differenzen Xj - x zu bilden und dann zu quadrieren. Mit Hilfe 
des Verschiebungssatzes kann die laufende Differenzenbildung vermieden werden. Betrachten wir die Summe 

Diese Summe lasst sich zerlegen in 



Q = E^ 2 - 



n ■ x 



i-l 



Setzt man den Ausdruck oben ein, erhalt man fur die Varianz 



s 2 = 



n 



Beispiel: 



^=^ I {gx?-^-r 



^(2 ; 5 2 + 3 2 + 3 2 + ...+3 2 -ll-3 2 ) 



= ^-(100,24 -99) = 0,124ft 2 



10 

Da die Varianz ein quadratischer Ausdruck ist, hat sie z.B. auch die Einheit h 2 wenn die Xj die Einheit h haben. Urn die Varianz anschaulicher 
zu machen, kann man ihre Quadratwurzel, die Standardabweichung s betrachten: 
Beispiel 

s = -Jo, 124ft 2 «0,35fr 

also ca. 20 Minuten. Man konnte etwas flapsig sagen, dass die Montagezeit eines Ofens im Mittel 3 Stunden +/- 20 Minuten betragt. 
Auch die Varianz reagiert empfindlich auf Ausreifter. Es gibt hier resistente Streuungsparameter, die weiter unten behandelt werden. 



4.2.2.1. Verteilung 



« hoch zumAnfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



4.2.2.1.1. Klassierung 



« hoch zumAnfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 
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Metrische Merkmale mit vielen verschiedenen Auspragungen 

Klassierung 

Liegen sehr viele verschiedene Beobachtungen eines metrisch skalierten Merkmals vor, ist es wenig sinnvoll, die Auspragungen zu zahlen. Hier 
mussen die einzelnen Werte fur die Haufigkeitstabelle zusammengefasst werden. Das geschieht in sogenannten Klassen. 

Beispiel 

Es liegen fur 32 europaische Lander als Indikator fur den Wohlstand die Zahlen der PKWs pro 1000 Einwohner vor: 



31 


43 


65 


152 


156 


247 


264 


266 


280 


289 


295 


332 


341 


351 


357 


365 


400 


421 


422 


423 


438 


451 


452 


456 


489 


494 


514 


516 


541 


557 


591 


641 



Diese Vielzahl unterschiedlicher Werte ist unubersichtlich. Sie werden zu Klassen zusammengefasst, und zwar so, 



Klasse 1 


uber - bis 200 


31 43 65 152 156 


Klasse 2 


uber 200 bis 300 


247 264 266 280 289 295 


Klasse 3 


Ciber 300 bis 400 


332 341 351 357 365 400 


Klasse 4 


uber 400 bis 500 


421 422 423 438 451 452 456 489 494 


Klasse 5 


Ciber 500 bis 700 


514 516 541 557 591 641 



so dass wir dann die folgende Haufigkeitstabelle erhalten: 



j 


Zahl der PKW pro 1000 


Zahl der Lander 
absolute Haufigkeit 

n J 


relative Haufigkeit 
Pj 


1 


Ciber - bis 200 


5 


5/32=0,15625 


2 


Ciber 200 bis 300 


6 


0,1875 


3 


Ciber 300 bis 400 


6 


0,1875 


4 


Ciber 400 bis 500 


9 


0,28125 


5 


Ciber 500 bis 700 


6 


0,1875 


I 




32 


1 



Strukturvon Klassen 

Wirwollen anhand des Beispiels die Strukturvon Klassen ansehen: 

Es werden benachbarte Merkmalsauspragungen Xj zu einer Klasse zusammengefasst. Wir bezeichnen als 

• Zahl der Klassen: m (m=5) 

• Absolute der Beobachtungswerte in der Klasse j (j = 1, ..., m): nj 



Relative Haufigkeit: py 



7i , 



?t 



Klassenobergrenze: x j ; Klassenuntergrenze: x u j 
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w-J 



• Klassenmitte: \*jf. = — 5? 1 

J 2 

Bemerkungen 

Die Beobachtungen sollen in einer Klasse moglichst gleichmaftig verteilt sein. Idealerweise haben alle Klassen dieselbe Breite, was aber nur bei 
gleichmaftiger Verteilung der Beobachtung zu empfehlen ist. Auf jeden Fall sollen keine leeren Klassen in der Mitte auftreten. 

Fur die empfehlenswerte Zahl von Klassen gilt die Faustregel j^- gtf %/yj ■ Die Zuordnung der Beobachtung zu einer Klasse muft eindeutig 
sein, also 



nicht 


10-11 


11 -12 


12-13 




sondern 


10- unter 11 


11 - unter 12 


12 - unter 13 




Oder 


Liber 10 bis 11 


uber 11 bis 12 


Ciber 12 bis 13 





Manchmal treten offene Randklassen auf. 
Beispiel: 

GroGe der landwirtschaftlichen Betriebe in Bayern 



Klasse j 


Grofte des Betriebs(in ha) 




1 


hochstens 5 




2 


uber 5 bis 10 




3 


uber 10 bis 50 




4 


mehr als 50 





Behandlung offener Randklassen 

Bestimmte Verfahren wie beispielsweise Histogramme etc. verlangen einen Randwert fur die oberste und unterste Klasse. Bei offenen 
Randklassen muB der au&ere Randwert „erfunden" werden. 

1. Falls gleiche Klassenbreiten existieren, werden die Randklassen genauso breit gemacht. 

2. Man verwendet als auftere Klassengrenze einen plausiblen Wert. 

Grafiken 

Der Klassiker einer Grafik fur klassierte Daten ist das Histogramm, eine Entsprechung des Saulendiagramms. Man tragt auf derAbszisse die 
Klassen ab und errichtet Ciber den Klassen Rechtecke, deren Flache die absolute oder relative Haufigkeit betragt. 

Wirwollen nun fur die PKW-lndikatordaten ein Histogramm konstruieren. Die Interval I breiten und die Flachen der einzelnen Rechtecke sind 
bekannt, uns fehlt jedoch die Hone einer Saule. Wir werden dieses Problem geometrisch angehen: 

Es gilt Flache = Hone * Breite, bzw 



rij fij • dj, 



also 
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j 


Zahl der PKW 
pro 1000 


Zahl der 

Lander 

absolute 

Haufigkeit 

n J 


Klassenbreite 


Saulenhohe 
hj = rij/dj 


1 


uber - bis 200 


5 


200 - = 200 


0,025 


2 


uber 200 bis 
300 


6 


100 


0,06 


3 


Ciber 300 bis 
400 


6 


100 


0,06 


4 


Ciber 400 bis 
500 


9 


100 


0,09 


5 


Ciber 500 bis 
700 


6 


200 


0,03 



a oe 

07 
fl.06 
0,05 
D (M 
D.Cfc 
0.01 
Di01 

























28% 
































19% 


19% 
























16% 


19% 



200 400 

Zahl der PKYVs auf 1000 Persons n 



Histogramm der PKWS pro tausend Bnw ohner in Europaischen £3 
Landern 

Ublicherweise wird beim Histogramm die Ordinate (y-Achse) weggelassen, 

weil sonst die Hohe der Saule als Haufigkeit gedeutet wird. Tatsachlich ist aber die Flache der Saule die Haufigkeit. Es geht ja in der Grafik 
darum, einen optischen Eindruck von der Aufteilung der Daten zu bekommen. In unserem Beispiel wurde die Ordinate beibelassen, damit die 
Konstruktion des Histogramms deutlich wird. Man kann zur UnterstCitzung der Information noch die Haufigkeiten in die Saulen eintragen. 



4.2.2.1.2 



Summenkurve 



<< hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Bei Beobachtungen, die man zweckmafeigerweise klassiert zusammenfasst, ist eine Summenfunktion aus der Urliste schwierig zu erstellen 
und auch unhandlich. 

Da hierdas Merkmal als stetig angesehen wird, nahert man die grafische Darstellung der Verteilung durch ein Kurve an. Dabei wird 
folgendermafeen vorgegangen: 

Urn die absolute Summenfunktion zu erstellen, berechnet man fur jede Klasse j die kumulierte Haufigkeit Sj. Dann tragt man die Wertepaare 
(x j;Sj), also die Klassenobergrenze und Summenhaufigkeit in ein Diagramm ein und verbindet die Punkte geradlinig. Es ist der erste Punkt 
(x u <i;0). Ab (x om ;n) verlauft die Summenkurve horizontal. 

PKW-Beispiel 

Dazu fassen wir die benotigten Werte am besten wieder in einer Zahlentabelle zusammen: Wir benotigen die Klassenobergrenzen x j und die 
Summenhaufigkeiten Sj. Die Summenhaufigkeiten sind die kumulierten Haufigkeiten 

i 
Sj = ^ rik 

etwa S-| = 5, S 2 = 5 + 6 =11, S 3 = 5 + 6 + 6 = 17 ... 



Klasse 


Merkmals- 
werte 


Absolute Haufigkeit 


Klassen- 
obergrenze 


Absolute Summenhaufigkeit 


j 


X 


n J 


x oj 


s i 
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1 


- bis 200 


5 


200 


5 


2 


u. 200 bis 300 


6 


300 


11 


3 


u. 300 bis 400 


6 


400 


17 


4 


u. 400 bis 500 


9 


500 


26 


5 


u. 500 bis 700 


6 


700 


32 


Z 




32 







Je gleichmaftiger die einzelnen Beobachtungen uberdie Klassen 
verteilt sind, desto besser passt sich die Summenkurve an die 
Summenfunktion der einzelnen Beobachtungen an. 

In der Grafik ist die Summenkurve fur das PKW-Beispiel angegeben. 
Zum Vergleich wurde die Summenfunktion der Urliste mit eingetragen, 
wobei aus Ubersichtlichkeitsgrunden nur bei den ersten Werten die 
Horizontale gezeigt wird. Man sieht, dass im Intervall 200 - 300 die 
Kurve die tatsachlichen Beobachtungen uberschatzt, im Intervall 600 - 
700 liegt die Kurve unter der tatsachlichen Summenfunktion. 

Die Summenfunktion ist eine empirische Beschreibung der Vertei lung 
des Merkmals in der Grundgesamtheit. Wie andere grafisch 
dargestellte Verteilungen ist auch sie vom optischen Informtionsgehalt 
hereherwenig instruktiv. Man kann aber Verteilungsaussagen 
grafisch ermitteln, z.B. 

Bei der relativen Summenkurve wird statt der absoluten Haufigkeit Sj 
die relative Summenhaufigkeit 

1 n 

verwendet. Die Form der Summenkurve bleibt erhalten. 
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Absolute Summenkurve 
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Relative Summenfunktion mit 25%-Quantil 
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4.2.2.2. 



Lageparameter 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Arithmetisches Mittel 

1st die Urliste gegeben, berechnet sich das arithmetische Mittel aus der bekannten Durchschnittsbildung der Beobachtungswerte. Sind jedoch 
die Informationen der Urliste nicht mehr verfugbar, kann man das arithmetische Mittel nur noch naherungsweise bestimmen. Man verwendet die 
Klassenmitte Xj' als Ersatz fur die Merkmalsauspragung Xj in der Klasse j und nahert das arithmetische Mittel an als 



1 



x & x 1 = — y^ x f t 



n . 



n r-i 



Die Klassenmitte soil das Niveau einer Klasse widerspiegeln. Das ist vor allem der Fall, wenn sich die Einzelwerte der Urliste gleichma&ig in 
einer Klasse verteilen. Sind die Einzelwerte mehrheitlich an einer Klassengrenze gelegen, gibt Xj' unter Umstanden nicht mehr das Niveau 
korrekt wieder. Die optimale Aufteilung der Klassen sollte schon bei Klassenbildung berucksichtigt werden. Im Sinne einer einfachen 
Handhabung sollte Xj' eine Zahl sein, mit der man leicht rechnen kann, also z.B. 200 und nicht 199,5. 



PKW-Beispiel 

Es ergibt sich also als angenahertes arithmetisches Mittel 

x = —11750 = 367,1875 



Klasse 


Intervall 


Absolute 
Haufigkeit 


Klassenmitte 




j 




n J 


x i" 


Xj'rij 


1 


- bis 200 


5 


100 


500 


2 


200 bis 300 


6 


250 


1500 


3 


300 bis 400 


6 


350 


2100 


4 


400 bis 500 


9 


450 


4050 


5 


500 bis 700 


6 


600 


3600 


I 




32 




11750 



Median 

Grafische Ermittlung 

Hier bietet sich vor allem die grafische Ermittlung des Medians an: 

Man bestimmt aus der absoluten (relativen) Summenkurve grafisch 
den Wert x, der zu n/2 (0,5) gehort. 

Im PKW-Beispiel wurde der Median aus der relativen Summenkurve 
grafisch ermittelt. Derx-Wert, derzu S*(X)=0,5 gehort, betragt etwa 
382. Es hatten also 50% der untersuchten Lander hochstens ca. 382 
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Fahrzeuge pro 1000 Einwohner. 

1st n klein, konnte man auch vom Ordinatenwert (n+1)/2 bei geradem 
n ausgehen. 

Ermittlung mit der Haufigkeitstabelle 

Man kann den Median auch naherungsweise durch lineare 
Interpolation aus der Haufigkeitstabelle ermitteln. Allerdings genugt im 
Allgemeinen auch die Klassenmitte der Einfallsklasse als Naherung 
fur den Median, da ohnehin meistens keine Informationen iiber die 
Verteilung der Beobachtungen in den Klassen vorliegen. 

Im PKW-Beispiel ergabe die Naherung durch die Klassenmitte z' = 350. 

Lineare Interpolation wiirde 

0,5-(^i-^i) ,_ 0,5-100 „ rt „ rt 
Xvs + — — = 300 + I „.„ = 394, 12 




Grafische Ermittlung des Medians 



P.3 



0,5312 



ergeben. 



4.2.2.3. Streuungsparameter 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 4 vom Inhaltsverzeichnis 



Einleitung 

Liegen bei einem klassierten Merkmal keine Informationen iiber die Urliste mehr vor, konnen wir die Varianz des Merkmals analog zum 
arithmetischen Mittel mit den Klassenmitten naherungsweise berechnen. Wir erhalten fur die Naherung s 2, 
1 



2 ^ 2* 



n i J ._ 1 



deren Exaktheit auch wieder von der Verteilung der einzelnen Werte in den Klassen abhangt. Verwenden wirstatt der absoluten Haufigkeiten nj 
die relativen pj, berechnet sich die Varianz als 



■} 9 f 






Man kann auch im Fall der naherungsweisen Berechnung den Verschiebungssatz anwenden. Wirwollen ihn hier nur fur absolute Haufigkeiten 
angeben. Fur die Quadratsumme der zentrierten Klassenmittel gilt 
m rn 

3=1 5=1 

so dass sich fur die angenaherte Varianz ergibt 

I T71 

s ^.^= -J— (£ x f. nj -n-x n .) 
n -1 *£J 3 

PKW-Beispiel 

Wie bei der Ermittlung des arithmetischen Mittels verwenden wir auch hierzweckmaftigerweise eine Tabelle. Es war das angenaherte 
arithmetische Mittel 367, 1875. Es wird zunachst die Varianz mit Hilfe der zentrierten Werte ermittelt: 
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Klasse 


Intervall 


Haufigkeit 


Klasse nmitte 


J 


iiber ... 
bis... 


n J 


X J 


1 


0-200 


5 


100 


2 


200 - 300 


6 


250 


3 


300 - 400 


6 


350 


4 


400 - 500 


9 


450 


5 


500 - 700 


6 


600 


I 


-- 


32 


-- 



Klasse 








J 


X j X 3 


(4 " *i) 


{ f -\ 2 


1 


-267,19 


71390,50 


356952,48 


2 


-117,19 


13733,50 


82400,98 


3 


-17,19 


295,50 


1772,98 


4 


82,81 


6857,50 


61717,46 


5 


232,81 


54200,50 


325202,98 


I 


- 


- 


828046,88 



Wir erhalten fur die Varianz 

i 



■I 

s = 



828046,88 = 26711,19 



32-1 

und fur die Standardabweichung 

s = ^26711,19 = 163,44 

Mit dem Verschiebungssatz dagegen erhalten wir 



Kla<*«;p Intprvall 



Absolute Klassen- 
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Haufigkeit 


mitte 






j 


iiber ... 
bis... 


n J 


x j" 


x' 2 
X J 


xj' 2 nj 


1 


0-200 


5 


100 


10000 


50000 


2 


200 - 300 


6 


250 


62500 


375000 


3 


300 - 400 


6 


350 


122500 


735000 


4 


400 - 500 


9 


450 


202500 


1822500 


5 


500 - 700 


6 


600 


360000 


2160000 


Z 




32 






5142500 



Wir erhalten fur die Varianz 



i 



s A = -——(5142500 - 32 ■ 367, 19') = 26711, 19 



Analyse mehrerer Merkmale 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 5 vom Inhaltsverzeichnis 



Deskriptive Analyse mehrerer Merkmale 

Haufig interessiert man sich fur mehrere Merkmale zugleich. Interpretiert man die Beobachtungen wieder als Stichprobe einer unbekannten 
Grundgesamtheit, konnte man fragen, ob die Variablen unabhangig sind oder, falls nicht, in welcher Beziehung sie zueinander stehen. So kann 
man beispielsweise etwa vermuten, daft zwischen Werbeausgaben und Umsatz eines Supermarktes ein positiverZusammenhang besteht. 



5.1. 



Korrelationsanalyse 



: hoch zum Anfang vom Inhaltsverzeichnis 
: hoch zum Kapitel 5 vom Inhaltsverzeichnis 



Korrelation zweier Merkmale 

Fur die Untersuchung der Beziehung zwischen mehreren Variablen muU grundsatzlich wieder nach Skalierung dieser Variablen unterschieden 
werden. Die Kovarianz bzw der Korrelationskoeffizient furzwei Zufallsvariablen einer Grundgesamtheit sind uns bereits bekannt. Analog dazu 
gibt es in der deskriptiven Statistik die (Stichprobe n)-Kovarianz bzw den (Stichproben)-Korrelationskoeffizienten. 

Korrelationskoeffizient nach Bravais-Pearson 

Es seien zwei Merkmale x und y zu beobachten. Bei einer Stichprobe im Umfang von n ergeben sich n viele Wertepaare (xj;vj) (i = 1, ..., n). 

Beispiel 

Es soil untersucht werden, ob das Bevolkerungswachstum eines Landes mit der Fruchtbarkeitsrate (durchschnittliche Zahl der Geburten einer 
gebarfahigen Frau) zusammenhangt. Es wurden acht Lander zufallig ausgewahlt und wir erhalten die Daten 



Land 


Bevolkerungs- 
wachstum X 


Fruchtbarkeits- 
rate y 
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Agypten 


1,8 


3 


Tiirkei 


1,1 


2 


VereinigteArabische Emirate 


1,6 


3 


Jamaika 


0,7 


2 


Mauritanien 


2,9 


5 


Island 


1 


1,8 


Tadschikistan 


2,1 


4,1 


Gabun 


2,4 


4,7 



Um sich einen Eindruck vom Zusammenhang der Daten zu verschaffen, tragen wir sie in einem Streudiagramm ab. 

Man sieht hierschon ohne Analyse, dass offensichtlich mit steigender 
Fertilitat auch das Bevolkerungswachstum zunimmt. Die gestreckte 
Punktwolke ist fast eine steigende Gerade, also besteht zwischen Fertilitat 
und Bevolkerungswachstum ein annahernd linearer Zusammenhang. Die 
Merkmale sind offensichtlich stetig. Fur metrisch skalierte Merkmale stellt der 
Korrelationskoeffizient r xy oder kurz r nach Bravais-Pearson ein Mali fiir die 
lineare Abhangigkeit zweier statistischer Variablen dar: 



r = 



x n und yi , Y2 , ■■■, Yn die Messwerte der beiden Merkmale 



wobei x-| , X2 

1 

und X = — 

n 

entsprechend. 

Analog zu oben kann auch hier wieder der Verschiebungssatz angewendet werden: 

E?=i Xi ■ Pi -nxy 



/ ^ Xi das arithmetische Mittel des Merkmals x sind, y 




Streudiagramm zw ischen Bevolkerungsw achstum und 
Fruchtbarkeitsrate fur 8 ausgewahlte Lander 



r = 



Vta-i^f -« " (*) 2 ) " C%-iVl ~n ■ (m 



Es gilt: Je naher |r| bei ist, desto schwacher ist der Jineare Zusammenhang", d.h. die Korrelation. Man sieht an den folgenden 
Streudiagrammen, dass bei einem Korrelationskoeffizienten von 0,9 das Diagramm stark einer Geraden ahnelt. Je kleiner |r| wird, desto 
verwaschener wird die Gerade bis hin zur strukturlosen Punktwolke. Ist der Korrelationskoeffizient kleiner als Null, hat die Punktwolke eine 
fallende Tendenz. 
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. . . • • 

• • 

• .• • 
• j- 

• * •• • 
• 

* 










Die Merkmale sind stochastisch : r i 
unabhangig 




In der Grundgesamtheit ist bei stochastisch unabhangigen Zufallvariablen die Kovarianz und damit der Korrelationskoeffizient gleich Null. Bei 
einer Stichprobe stetiger Merkmale wird man aber so gut wie niemals einen Korrelationskoeffizienten erhalten, der genau Null ist. In unserem 
Beispiel mit den stochastisch unabhangigen Merkmalen wurden 30 Zufallszahlen zweier stochastisch unabhangiger Variablen erzeugt. Der 
errechnete Stichproben-Korrelationskoeffizient ergab jedoch -0,272. Die Frage ist nun, wie graft muss der errechnete Korrelationskoeffizient 
mindestens sein, damit man von einer vorhandenen Korrelation ausgehen kann? Hier kann man den Korrelationskoeffizienten statistisch testen, 
urn nachzuprufen, ob er graft genug ist. 



Beispiel mit zentrierten Merkmalswerten 

Wir wollen nun den Korrelationskoeffizienten des obigen Beispiels mit der Formel 

T2 =1 (xi - x)(yt - y) 



r = 



^U=M-^ 2 -^=i(yi-V) 2 



ermitteln. Am besten ordnet man die Daten fur die Berechnung in einer Tabelle an (siehe unten). Wir benotigen als Erstes den Mittelwert x: 
1 n 1 



n 



S 



i=l 
entsprechend erhalten wir fur y 



y = -. 25,6 = 3,2. 

Wir wollen nun zuerst die Elemente x* — X bestimmen, wir nennen diese zentrierten Werte von x hier x* 
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x 1 * = x 1 -x= 1,8- 1,7 = 0,1 
x 2 * = x 2 -x = 1,1 - 1,7 = -0,6 

Wir konnen nun die Formel von oben etwas kurzer schreiben als 



r = 



V^-i x i " v^-i Vi 



Setzen wir die entsprechenden Spaltensummen der Tabelle ein, ergibt sich 



6,47 



r = 



= = 0,9706 . 



VW- 11,22 

Der KorrelationskoefTizient betragt also 0,9706. x und y sind hochkorreliert: Wenn die Fruchtbarkeitsrate graft ist, wachst die Bevolkerung stark. 





BevW 


FrR 


X* = X - X 


y* = y - y 








' 


X 


y 


X* 


y* 


x*y* 


X* 2 


y* 2 


1 


1,8 


3 


0,1 


-0,2 


-0,02 


0,01 


0,04 


2 


1,1 


2 


-0,6 


-1,2 


0,72 


0,36 


1,44 


3 


1,6 


3 


-0,1 


-0,2 


0,02 


0,01 


0,04 


4 


0,7 


2 


-1 


-1,2 


1,2 


1 


1,44 


5 


2,9 


5 


1,2 


1,8 


2,16 


1,44 


3,24 


6 


1 


1,8 


-0,7 


-1,4 


0,98 


0,49 


1,96 


7 


2,1 


4,1 


0,4 


0,9 


0,36 


0,16 


0,81 


8 


2,4 


4,7 


0,7 


1,5 


1,05 


0,49 


2,25 


I 


13,6 


25,6 








6,47 


3,96 


11,22 



Beispiel mit Verschiebungssatz Wir berechnen Korrelationskoeffizienten mit Hilfe des Verschiebungssatzes: 

49,99-8-1,7-3,2 



r = 



y/(27fl8 - 8 ■ I,?*) ■ (93,14 - 8 ■ 3,2 2 ) 



= 0,9706 





BevW 


FrR 








' 


X 


y 


xy 


X 2 


y 2 


1 


1,8 


3 


5,4 


3,24 


9 
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2 


1,1 


2 


2,2 


1,21 


4 


3 


1,6 


3 


4,8 


2,56 


9 


4 


0,7 


2 


1,4 


0,49 


4 


5 


2,9 


5 


14,5 


8,41 


25 


6 


1 


1,8 


1,8 


1 


3,24 


7 


2,1 


4,1 


8,61 


4,41 


16,81 


8 


2,4 


4,7 


11,28 


5,76 


22,09 


I 


13,6 


25,6 


49,99 


27,08 


93,14 



Bemerkungen 

• Der Korrelationskoeffizient nach Bravais-Pearson reagiert stark auf Ausreifter in den Beobachtungen. Daher sollten die vorliegenden Daten 
idealerweise normal verteilten Merkmalen entstammen. 

• Aufgrund der Durchschnittsbildung ist er fur ordinalskalierte Merkmale nicht zulassig. 

• In der praktischen Anwendung werden bei Verwendung des Verschiebungssatzes die Produkte haufig sehr graft. Um Rundungsfehler zu 
vermeiden, zentriert man hier vor Berechnung des Korrelationskoeffizienten die Datenwerte zu xi* und yi* wie oben gezeigt. 

Rangkorrelationskoeffizient nach Spearman 

Fur Variablen, die stark von der Norma Ivertei lung abweichen, und auch ordinalskalierte Variablen, eignet sich der 
Rangkorrelationskoeffizient nach Spearman-Pearson. Hier werden die einzelnen Beobachtungen von x bzw. y der Grade nach geordnet. 
Jedem Wert wird seine Rangzahl zugewiesen. Es entstehen so n Paare mit Rangzahlen rg(Xj) und rg(yj). Aus diesen Rangen wird der 
Korrelationskoeffizent nach Bravais-Pearson errechnet. Man erhalt so den Korrelationskoeffizenten nach Spearman-Pearson: 



TSP 



Ei(rgQi) - rgixj^rgiyi) - rg(y)) 
Vti( r s(*t) - T 9(x)y-^Ei(rg(yi) - Tg{y)f 



Wenn alle Range verschieden sind, kann man die obige Form zu 

r$p = 1 j-z tt' 

n ■ \n l — 1) 

umformen mit d- = rg(Xi) — rg(jfc)- 

Liegen mehrere gleiche Merkmalswerte vor, handelt es sich um Bindungen. Die untere der beiden Formeln ist eigentlich nur korrekt anwendbar, 
wenn keine Bindungen vorliegen. Meistens kann man jedoch zur Vereinfachung die Formel naherungsweise verwenden. Zur konkreten 
Berechnung von Bindungen soil das folgende Beispiel verwendet werden. 



Beispiel: Evaluation einerVorlesung 

Es wurde eine Statistikvorlesung evaluiert. Die gesamten Daten sind unter Evaluation verfugbar. Es wurden hier 10 Studierende zufallig 
ausgewahlt. Wir interessieren uns fur die Frage, ob moglicherweise die Zufriedenheit der Leute mit der Vorlesung davon abhangt, ob die 
Vorlesung verstandlich war. Es ergaben sich die Daten 



Stoff 
verstandlich 



Note fur 
Vorlesung 
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X 


y 


2 


1 


4 


4 


2 


2 


3 


3 


4 


3 


3 


2 


3 


2 


4 


3 


3 


3 


3 


3 



Es werden nun die Range ermittelt. Da mehrere Merkmalswerte gleich sind, liegen Bindungen vor, d.h. gleiche Werte bekommen gleiche 
Rangzahlen. Es gibt verschiedene Methoden, gleiche Rangzahlen zuzuweisen. Meistens werden mittlere Rangzahlen verwendet. Wir wollen fur 
x die Rangzahlen ermitteln. Dazu ordnen wir die x-Werte der GroGe nach und numerieren sie durch: 



X 

aufsteigend 
geordnet 


Laufende 
Nummer 


mittlerer 
Rang 


Rangzahl 


2 


1 


1 + 2 
2 


1,5 


2 


2 




1,5 


3 


3 


3+4+5+6+7 
5 


5 


3 


4 




5 


3 


5 




5 


3 


6 




5 


3 


7 




5 


4 


8 


8 + 9+10 
3 


9 
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4 


9 




9 


4 


10 




9 



Fur die Range von y verfahren wir entsprechend, wie die unten folgende Tabelle zeigt. Nun konnen wir den Korrelationskoeffizienten nach 
Spearman-Pearson berechnen: 



\A^ {rgixi )~rg(x) ) 2 y/llJrgiy^-Tgiy)) 2 



wobei sich fur to(x) = — -^5=5^ ergibt, fur rg(y) ebenfalls. Es scheint zwischen dem Verstehen des Statistikstoffs und der 

y ; 10 
Gesamtzufriedenheit ein deutlich positiver Zusammenhang zu bestehen: Je besser der Stoff verstanden wurde, desto besserfiel tendenziell 
auch die Note aus. 



X 


y 


rg(x) 


rg(y) 


rg(x)* = 

rg(x)-rg(x) 


2 


1 


1,5 


1 


-4 


4 


4 


9 


10 


3,5 


2 


2 


1,5 


3 


-4 


3 


3 


5 


7 


-0,5 


4 


3 


9 


7 


3,5 


3 


2 


5 


3 


-0,5 


3 


2 


5 


3 


-0,5 


4 


3 


9 


7 


3,5 


3 


3 


5 


7 


-0,5 


3 


3 


5 


7 


-0,5 






55 


55 






X 


y 


rg(y)* = 

rg(y)-rg(y) 


rg(x)*rg(y)* 


rg(x)* 2 


rg(y)* 2 


2 


1 


-4,5 


18 


16 


20,25 
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4 


4 


4,5 


15,75 


12,25 


20,25 


2 


2 


-2,5 


10 


16 


6,25 


3 


3 


1,5 


-0,75 


0,25 


2,25 


4 


3 


1,5 


5,25 


12,25 


2,25 


3 


2 


-2,5 


1,25 


0,25 


6,25 


3 


2 


-2,5 


1,25 


0,25 


6,25 


4 


3 


1,5 


5,25 


12,25 


2,25 


3 


3 


1,5 


-0,75 


0,25 


2,25 


3 


3 


1,5 


-0,75 


0,25 


2,25 









54,5 


70 


70,5 



Wirwerden nun den Korrelationskoeffizienten zum Vergleich mit der vereinfachten Formel ermitteln: 

6E,^ . 6-31,5 



r S p = 1 - 



= 1- 



(n-(n 7 -l)) 10 (100-1) 

Dieser Wert weicht etwas vom vorhergehenden ab. 



= 0,8091- 



X 


y 


rg(x) 


rg(y) 


rg(x)-rg(y) 


di 2 


2 


1 


1,5 


1 


0,5 


0,25 


4 


4 


9 


10 


-1 


1 


2 


2 


1,5 


3 


-1,5 


2,25 


3 


3 


5 


7 


-2 


4 


4 


3 


9 


7 


2 


4 


3 


2 


5 


3 


2 


4 


3 


2 


5 


3 


2 


4 


4 


3 


9 


7 


2 


4 


3 


3 


5 


7 


-2 


4 
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3 


3 


5 


7 


-2 


4 












31,5 



Bemerkungen 

• Wie beim Korrelationskoeffizienten nach Bravais-Pearson kann auch hier der Verschiebungssatz verwendet werden. 

• Wird fur die Berechnung des Korrelationskoeffizienten der Computer eingesetzt, sollte die vereinfachte Formel nicht verwendet werden, denn 
sie soil lediglich bei der Berechnung von Hand die Arbeit erleichtern - es sei denn, alle Rangzahlen sind verschieden. 



5.2. 



Regressionsanalyse 



<< hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 5 vom Inhaltsverzeichnis 



Streudiagramm Preis - Absatz 



Einfaches lineares Regressionsmodell EinfLihrung mit Beispiel einer Preis-Absatz-Funktion 

Eine renommierte Sektkellerei mochte einen hochwertigen Rieslingsekt auf den Markt 
bringen. Fur die Festlegung des Abgabepreises soil zunachst eine Preis-Absatz- 
Funktion ermittelt werden. Dazu wurde in n = 6 Geschaften ein Testverkauf 
durchgefuhrt. Man erhielt sechs Wertepaare mit dem Ladenpreis x (in Euro) einer 
Flasche und die verkaufte Menge y an Flaschen: 

t 8 

I 

£ 4 



Laden 


i 


1 


2 


3 


4 


5 


6 


Preis einer 
Flasche 


*i 


20 


16 


15 


16 


13 


10 


verkaufte Menge 


y\ 





3 


7 


4 


6 


10 



12 



Modell 

Man gent von folgendem statistischen Modell aus: 

Man betrachtet zwei Variable, die vermutlich ungefahr in einem linearen 
Zusammenhang 

y & a + (3x 

stehen. Dabei sind x als unabhangige und y als abhangige Variable 
definiert. Man nennt auch x erklarende oder exogene Variable und y 
Zielvariable oder endogene Variable. Es existieren von x und y je n 
Beobachtungen Xj und yj (i = 1, ... , n). Der funktionale 
Zusammenhang y = f(x) zwischen x und y kann nicht exakt 
festgestellt werden, da a + (3x von einer Storgro&e u uberlagert wird, 
die nichterfassbare Einflusse (menschliches Verhalten, 
Messungenauigkeiten usw) mit einschlieftt. Es ergibt sich also das 
Modell 

y = a | &x | u 

mit den einzelnen Beobachtungen 

iji = a | 0Xi I Ui . 

Da a und px nicht bekannt sind, kann y auch nicht in die 
Komponenten a + (3x und u zerlegt werden. 

Es soil eine mathematische Schatzung fur die Parameter a und (3 



* 

— « — 

— • — 

-. , , 1 * — 



10 12 14 16 18 

Piei&emtrr 5«MMasche 



Streudiagramm von Preis und abgesetzter Menge an <P 

Sektflaschen 



c:+ pi 

I ntatfcdHHte Cerate 



^chSlK|:«C«rade 




?■? 



Wahre unbekannte und geschatzte Regressionsgerade 
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durch zwei Konstanten a und b gefunden werden, und zwar so, daft 
sich ergibt 

yi = a + bxi + di> 

wobei dj das Residuum bezeichnet, die Abweichung des beobachteten y- Wertes vom geschatzten. Es gibt verschiedene Moglichkeiten, die 
Regress iongerade zu schatzen. Man konnte eine Gerade so durch den Punkteschwarm legen, dass die Quadratsumme der Residuen, also der 
senkrechten Abweichungen dj der Punkte von dieser Ausgleichsgeraden minimiert wird. 

Beispiel zum Modell der Grundgesamtheit 

In einem breit angelegten Versuch wird ein Flussigdunger an 
in Nahrlosung gezogenen Peperonis untersucht. Es wird 
wochentlich jeder Pflanze eine bestimmte Menge Diinger 
verabreicht. Nach zwei Monaten wird der Gesamtertrag einer 
Pflanze gewogen. Die Abhangigkeit des Ertrags y (kg) von 
der Dungermenge x (ml) lasst sich beschreiben als 

y = a + (3x + u=l + 0,0lx + u , 

wobei naturlich kein Mensch diese Gerade kennt, wir konnen 

nur einzelne Versuche machen. In der Tabelle 1 sind fur die 

DCingergaben 40, 50, ... ,120 ml fur jeweils 8 Pflanzen die 

resultierenden Ertrage aufgefuhrt. Man sieht, dass die 

Ertrage urn cfc + B • X schwanken, was naturlich an der 

Storgrofte u = y — (a + • x) lj egt- 

Betrachten wir die Storgrofte bei einer Dungermenge von X3 

= 60 ml. Es wurden hier die Ertrage von 150 Peperoni- 

Pflanzen erfasst. Wenn man die Realisationen der Storgrofte 

U3 in einem Dotplot abtragt (Grafik 2), erkennt man, dass die 

Werte normal vertei It sein konnten. Zu x 3 gehort also eine 

eigene Wahrscheinlichkeitsverteilung der Storgrofte, ebenso 

zu x-|, X2 usw In der Grafik 3 sind diese verschiedenen Verteilungen der u exemplarisch angedeutet. 



Wochentliche Dungergabe 


pro Pflanze (ml) 












X1 


x2 


x3 


x4 


*5 


xG 


x7 


Xfl 


x9 




40 


50 


€0 


70 


30 


90 


100 


110 


120 


Ertrag (kg) 


1,41 


1,47 


1,45 


1,70 


1,57 


1,77 


2,01 


2,32 


2,26 




1,44 


1,56 


1,64 


1,58 


1,56 


2,11 


1,79 


2,02 


2,30 




1,24 


1,23 


1,62 


1,71 


1,79 


152 


2,09 


2,13 


2,21 




1.22 


1,35 


1,40 


1,46 


us 


1J91 


2,03 


2,16 


2.33 




1,26 


1,30 


1,80 


1,80 


1,74 


2,14 


1,79 


2,25 


2,39 




1,37 


1,33 


1£7 


1 n 83 


1 n 59 


1J90 


1,31 


1,91 


2.18 




1.18 


1,36 


1,50 


1,70 


2,03 


1,75 


2,08 


2,23 


2.33 




1.S6 


1,49 


1,60 


1,75 


1,74 


1,87 


2,13 


2,07 


1,99 


■r+f;x 


1.4 


1.5 


1.6 


■1.7 


1.S 


1.9 


2 


2.1 


2.2 


Stdrgrdlte 
u=y-(u+px) 


U1 


u2 


u3 


u4 


u5 


116 


u7 


u8 


u9 


0,01 


-0,03 


-0,15 


0,00 


-0,23 


-0,13 


0,01 


0,22 


0,06 




0,04 


0,06 


0,04 


-0,12 


0,24 


0,21 


■0,21 


-0,08 


0,10 




-0,16 


-0,22 


0,02 


0,01 


-0,01 


0,02 


0,09 


0,03 


0,01 




-0,18 


-0,15 


-0,20 


-0,24 


0,02 


0,01 


0,08 


0,05 


0,13 




-0,14 


-0,20 


020 


0,10 


0,06 


0,24 


-0,21 


0,15 


0,19 




^,03 


-0,17 


-0,03 


0,13 


-0,21 


0,00 


-0,19 


-0,19 


-0,02 




-0,22 


-0,14 


-0,01 


0,00 


0,23 


-0.15 


0,08 


0,13 


0,13 




0,16 


-0,01 


0,00 


0,05 


-0,06 


-0,03 


0,13 


-0,03 


-0.21 


Tabelle 1 : Daten 


















£3 



Dotplot: ttaufigkeit von 150 Vferten der Storgrdfle u? 

150 Pt'lanzenertra'-ge bei einer IHlngergabe von x 5 ■ 60 ml . 
Der wahrc durch schn it tliche Ertrag liegt Jrai i,< fcg. 
5ttir<gro£e 1st die Abweichung des tatsaeJiIlcli beobachteten 
Ertxags vom »^hren Ertrag r y - 1,6. 



-0,07 -0,03 0,00 0,03 0,07 0,10 

Grafik 2: Dotplot von 150 Realisationen der Stbrgrbfte bei x = 40 




Grafik 3: Verteilung der Stbrgrbften auf der Regressionsgeraden (P 



Axiome des linearen Regressionsmodells 

Damit dieses Verfahren sinnvolle Ergebnisse liefert, wurden far das Lineare Regressionsmodell bestimmte verteilungstheoretischeAnnahmen 
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getroffen. Wir gehen aus von der Beziehung 

Pi = a | 0Xi | Ui . 

und definieren die Storgrofte Uj als Zufal Is variable. Die Annahmen des linearen Regressionsmodell sind 

1. Alle Uj haben den Erwartungswert Null: Eui = 0, (i = 1, ..., n) . 

2. Alle Uj haben die gleiche Varianz (Homoskedastizitat): varu t = varuj (i,j = 1, ... , n, i + j) . 

3. Die Uj sind samtlich stochastisch unabhangig voneinander. 
Der Sinn dieser Axiome wird weiter unten erlautert. 

Minimierung 

Die herkommliche Methode, die sich auf der Basis der Axiome ergibt, ist die Minimum-Quadrat-Methode oder Methode der kleinsten Quadrate. 
Man minimiert also die summierten Quadrate der Residuen, 

rss = it d i= E(tt - ( a I bx d) 2 -> minl 

1=1 1=1 

bezuglich a und b. 

Wir multiplizieren die Klammer aus: 

S = SLiCffi - «■ - fcci) ■ (^ - a - far*) 

= E?=i(w? - 2»a - 2 Vitei + fl2 + 2 *^ + &M) 

= E"=ift ? - 2a SLi w - 2f? ELi i/^ + na2 + 2a6 ELi ^ + &2 E"=i ^ 2 - 

Wir minimieren durch Ableiten 

^ = -2^> I 2»a I 26 ^>, 
OO i= i i=1 i=1 

und Nullsetzen, was ein wenig optisch geschont die Normalgleichungen 

n n 

na I b^Xi = Ylv*> 
i=l i=l 

■n Ti n 

1=1 1=1 1=1 

ergibt. 

Wir erhalten die gesuchten Regressionskoeffizienten als die Losungen 



b = 



»^2 



und 

a = y — bx , 

1 « 

wobei £ = — V^ 2^ der Mittelwert, also der Durchschnitt der x-Daten ist, y entsprechend. Wegen des Verschiebungssatzes kann man b 
auch darstellen als 
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6 = 



E?=i(^ - x)(yi - y) 



Oder, nach Erweiterung des Bruchs durch 1/(n-1), 

mit s xy als Kovarianz zwischen den Xjund y; und s x 2 als Varianz derxj. Man nennt diese Schatzungen auch Kleinste-Quadrate-Schatzer, KQ- 
oderOLS-Schatzer. 

Wirwollen nun fur das obige Sektbeispiel die Regressionskoeffizienten bestimmen: 



Preiseiner 
Flasche 


verkaufte 
Menge 


Xj-X 


yry 










Xj 


y\ 


X* 


y* 


x*y* 


x*x* 


W 


y~ 


20 





5 


-5 


-25 


25 


25 


0,09 


16 


3 


1 


-2 


-2 


1 


4 


4,02 


15 


7 





2 








4 


5,00 


16 


4 


1 


-1 


-1 


1 


1 


4,02 


13 


6 


-2 


1 


-2 


4 


1 


6,96 


10 


10 


-5 


5 


-25 


25 


25 


9,91 


90 


30 








-55 


56 


60 


30,00 



Wir berechnen in dem Beispiel zunachst die arithmetischen Mittel als die Koordinaten des Schwerpunktes der n Messwerte bzw. der 
Punktwolke. 

1 n 1 1 " 1 

X = — ^' ( Xj = - 90 = 15 , entsprechend y = — ^ Ifi = - 30 = 5, 



n 



i=l 



n 



i=l 



und dann die Regressionskoeffizienten 



6 = 



Etifo -*){»-?) ~ 55 



Eti(^-^) 2 



56 



= — 3 98 als die Steigung der Regressionsgeraden 
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a = y - hx = 5 + 0, 98 ■ 15 = 19, 7 

Die geschatzte Regressionsgerade lautet y = 19, 73 — 0, Q8x, 

so dass man vermuten kann, dass bei jedem Euro mehr der Absatz 
im Durchschnitt um ca. 1 Flasche sinkt. 

Fur die gegebenen x-Werte erhalten wir als Schatzungen y~ 
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8 
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> 6 
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^\ 






















5 


10 


J L" 


20 25 






x 






Regressionsgerade a+bx 








f3 



Vl = fl | fo-i = 19,73-0,98-20 = 0,09 

y 2 = a \ bx 2 = 19,73 - 0,98 ■ 16 = 4,02 

y (i = a + bx§ = 19,73 - 0,98 ■ 10 = 9,91 

Fur die beobachteten Absatzwerte y bleibt das Residuum rj iibrig: 

y 1 = a + bxi + di = j/i + di 

=> rfi = yi-yi = 0-0,09 = -0,09 

y 2 = a + bx^ + ik = Jfe + ds 

^ d 2 = y 2 -y 2 = 3-4,02 = -1,02 



y 6 = a + bx§ + d$ y§ + *k 

4 = J/6 -m 



= 10-9,91 = 0,09 



Schatzung derVarianzen 

Die Stichprobenvarianz der Residuen berechnet sich als: 
1 ^ a 



S 2 = 



■£* 



n-27 

Man schatzt damit die Varianz der Storgrofte u (eigentlich U!). 

GesetzmaBigkeiten 

Bezuglich der Zielvariablen und der Residuen gilt: 

£ d, = 

i 

und damit A __ n. 



PDFmyURL.com 



Die Residuen sind im Mittel Null, sie enthalten also keine Information mehr. 



" Xjdj 



Die unabhangige Variable x und die Residuen sind orthogonal. Geometrisch bedeutet das, dass sie senkrecht aufeinander stehen. Sie 
sind daher unkorreliert. Die Residuen enthalten also keinerlei Information mehr, die in x steckt. Die Informationen aus x sind alle in a + 
bx. Nur, was von x nicht mehr erklart werden kann, bleibt als Rest in d. 



y=-E(yi-4) = -Ey;--E4 



v- 



Das arithmetische Mittel dery~ ist gleich dem Mittel von y. 
Vorteile der Minimum-Quadrat-Methode: 

• Positive und negative Abweichungen heben sich bei Summenbildung nicht auf. 

• GroGe Residuen werden im Verhaltnis starker gewichtet als kleine. 

• Der Durchschnitt der Residuen ist Null. 

• Die Regressionskoeffizienten konnen mit einer Formel berechnet werden. 
Nachteil der Minimum-Quadrat-Methode: 

Nicht resistent gegenuber Ausreiftern in den Daten. 
Sekt-Beispiel: 

Wegen eines Erhebungsfehlers wurde fur X6 statt 10 der Wert 70 eingetippt. Die neue 
Regress ionsgerade ergibt sich als y^ = 2,51 + 0,1 Ox. Dieser Ausreifter beeintrachtigt 
das Ergebnis so sehr, dass sogar das Vorzeichen der Steigung umgedreht wird. 
Eigentlich sollte die Regressionsgerade durch die Punktwolke auf der linken Seite der 
Grafik fuhren und fallend sein. Der Ausreifter hebelt die Gerade regelrecht aus: Man 
spricht von einem High-Leverage-Value, also einem Wert mit grower Hebelkraft. Wir 
erkennen sofort, dass dieser Ausreifter die Analyse vollig wertlos gemacht hat. In dem 
speziellen Sachzusammenhang konnte man sogar einen fatalen Fehlschluss machen: 
Bei Luxusgutern sind steigende Preis-Absatz-Funktionen denkbar, weil ein hoher Preis 
statusfordernd ist. Man konnte also falschlicherweise annehmen, dass dieser 
Zusammenhang auch hier gilt. Man wurde also einen sehr hohen Preis festlegen und 
am Markt scheitern. 




En Ausreifter bei x: Die Gerade wird nach oben gezogen <P 



Bestimmtheitsmafi 

Ein Kriterium fur die Beurteilung der Gtite einer Regressionsschatzung ist das BestimmtheitsmaG. Die Begrundung fur dieses MaG leitet sich 
aus der sog. Streuungszerlegung her. Die Gesamtvarianz von y laflt sich, ausgehend von der Beziehung 

Vi = ifi I di 

zerlegen in die durch a + bx erklarte Varianz von y und die nicht erklarte Varianz: 



I 



1 



Einige Umformungen ergeben das Bestimmtheitsmafl 

als Anteil der erklarten Streuung an der Gesamtstreuung von y. Es ist 
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(£T = ,(^-aO(y<-y)) 2 

r 



wobei ersichlich ist, daft r 2 das Quadrat des Korrelationskoeffizienten von x und y darstellt. Mit dem Verschiebungssatz erhalten wir 



r 2 = 



{Y%-i%iVi-n-x-y) 2 



Es gilt: 

< r 2 < 1 

Je naher r 2 bei 1 ist, desto grafter ist der Anteil der erklarten Streuung, desto besser wird y durch x erklart. r 2 = bedeutet, dass x und y 
unkorreliert sind, und r 2 = 1, dass x und y eine Gerade bilden. 
Die Berechnung der Varianz der Residuen von Hand mit der Formel 



,,'=^ 



n _ t 



2?< 



ist aufwendig, weil zuerst die Residuen ermittelt werden mussen. Eine vereinfachte Form leitet sich aus der Beziehung 
r 2 = I £?=l*ff 



her. Es ist dann namlich 

*? = -^(i-r 2 )-±(y i -y-y 

Sekt-Beispiel 

Da hier die arithmetischen Durchschnitte glatte Werte sind, wollen wir das Bestimmtheitsmaft mit der Formel 

r 2 = a^&i-x)(Vi-y)r 



ermitteln. Die Quadratsummen wurden oben in der Tabelle bereits ausgerechnet. Wir erhalten 

Man konnte also sagen, dass etwa 90% der Information in y von x stammen, die restlichen 10% haben andere Ursachen. 

Anforderungen an das Regressionsmodell 

Das Regressionsmodell kann nuroptimale Ergebnisse liefern, wenn bestimmte Anforderungen erftillt sind. Diese Anforderungen lassen sich aus 
dem Axiomensystem des klassischen linearen Regressionsmodells herleiten: 

Die Residuen sollen nur rein zufallig streuen und keinerlei Systematik mehr enthalten, d.h. die Zielvariable y soil durch x vollstandig erklart 
werden. Systematik in den Residuen deutet daraufhin, daft das Modell moglicherweise falsch bestimmt wurde, d.h. es liegt ein 
Spezifikationsfehler vor. 

Als bestes Mittel zur Uberprufung dieser Modellvoraussetzungen wird das (x;y)-Streudiagramm angesehen, das schnell einen optischen 
Eindruck von der Verteilung der Storgrofte vermittelt. 
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Korrelierte Residuen: 

In den Residuen ist noch ein 
Schwingungskomponente, die man ev. mit dem 
Ansatz y = a + b-|X + b 2 sin(x) einbinden konnte. 







* 




K**^ 






#* 


•hS 






.♦•• 





Verschiedene Varianz der Residuen: (£? 

Die linken Residuen schwanken schwacher als die 
rechten. Vermutlich sind zwei verschiedene 
Fbpulationen gemischt worden. 



Prognose 

Ein Ziel der Regressionsanalyse ist die Prognose y~o> d.h. man fragt danach, welchen Wert y annimmt, wenn ein bestimmtes xq vorgegeben 
ist: 

y o = a + hx Q 

Sekt-Beispiel: Wieviel Flaschen Sekt werden im Durchschnitt verkauft, wenn der Preis auf xq = 11 Euros festgelegt wird? Es ergibt sich der 
Prognosewert 

y () = 19,7321 -0,9821 11 = 8,93 

Das heifit jetzt aber nicht, dass in jedem Laden genau 8,93 Flaschen verkauft werden, was auch schwierig sein durfte, sondern dass in einem 
Laden durchschnittlich 8,93 Flaschen abgesetzt werden. 

Je weiterxg vom „Zentrum" x der Daten entfernt ist, desto unverlaftlicher werden die Prognosen - ihre Varianz wird immer grafter. Deshalb sollte 
man sich bei einer Prognose nicht zu weit von den Daten entfernen. 



Multiple Regression 

Beispiel mit demografischen Daten ausgewahlter Lander: 



Row i 


Country 


popgrow 


birth 


mort 


fertil 


explife 


infmort 






y 


*1 


*2 


*3 


x 4 


*5 


1 


Austria 


0,14 


8,90 


9,56 


1,35 


78,87 


4,68 


2 


Burkina Faso 


2,57 


44,46 


18,79 


6,28 


44,20 


98,67 


3 


Burma 


0,47 


18,64 


12,16 


2,08 


56,01 


68,78 


4 


Chile 


1,01 


15,77 


5,71 


2,06 


76,38 


9,05 


5 


Costa Rica 


1,52 


18,99 


4,32 


2,33 


76,63 


10,26 


6 


Iraq 


2,74 


33,09 


5,66 


4,40 


68,26 


52,71 


7 


Norway 


0,41 


11,89 


9,51 


1,78 


79,25 


3,73 


8 


Portugal 


0,41 


10,90 


10,37 


1,46 


77,35 


5,13 


9 


Singapore 


1,71 


9,63 


4,05 


1,04 


81,53 


2,28 


10 


United Kingdom 


0,29 


10,88 


10,19 


1,66 


78,27 


5,22 
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Erklarung der Variablen: 



birth 


Geburtenrate (Zahl der Geburten pro 1000 Einwohner) 


explife 


Lebenserwartung (Mittlere Zahl der Lebensjahre von Geburt an) 


fertil 


Fertilitat (Durchschn. Kinderzahl pro gebarfahiger Frau) 


infmort 


Kindersterblichkeit (Zahl der verstorbenen Kinder unter einem Jahr pro 1000 Lebendgeburten) 


mort 


Sterblichkeit (Zahl der Verstorbenen pro 1000 Einwohner) 


popgrow 


Wachstumsrate der Bevolkerung (prozentuale Anderung der Einwohnerzahl gegenuber dem Vorjahr) 



Es wurden die demografischen Daten fur n=10 zufallig ausgewahlte Lander erhoben (Quelle: Worldfact-Book der CIA Q) 

Es soil nun das Bevolkerungswachstum popgrow erklart werden. Es wird zunachst als erklarende Variable die Geburtenrate birth versucht: 

popgrow = a \ b ■ birth bzw. y = a \ bx . 

Wir erhalten die Regress ionsgerade 

popgrow = -0, 104 | 0, 0672 ■ birth 

mit einem Bestimmtheitsmaft von 66,4%. Die Information in popgrow wird also zu 66% durch birth erklart, die restlichen 34% entstammen 
anderen Einflussgroften. Wir machen einen zweiten Versuch und verwenden die Sterblichkeit als erklarende Variable: 

popgrow = a \ b- mort \ d , 

Hier ergibt sich als Regress ionsgerade 

popgrow = 1,16 — 0, 0032 ■ mort \ d 

mit einem Bestimmtheitsmaft von ca. 0%. Dieses Ergebnis ist enttauschend und auch das vorherige war nicht gerade berauschend. Jetzt 
versuchen wir mal was Innovatives: Wir machen einen Regressionsansatz mit zwei unabhangigen Variablen 

popgrow = bo \ b± ■ birth \ b 2 ■ mort \ d bzw y = bo \ b± ■ x± I b 2 ■ x 2 I d- 

Gesucht ist also die geschatzte Regressionsebene 

y = bo + biXi + bzx-z 

Wir erhalten das Gleichungssystem 

y\=b Q +b x x n +b 2 xi2+d h 
y2 = bo + b \X2 1 + &2 X 22 + <^2' 
y 3 =b + bix 3 i+b 2 x 32 +d 3 , 

2/10 = bo I ^1^10,1 + &2#10,2 + dio ■ 

Wirwollen nun die einzelnen Daten zu Matrizen zusammenfassen. Wir erhalten die (10x3)-Datenmatrix 
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x = 









/l 8,90 9,56 \ 






1 44,46 18,79 


/ 


\ 


1 18,64 12,16 


/l x n 


X i2 1 




1 15,77 5,71 


1 X 2 l 


^22 




1 18,99 4,32 








1 33,09 5,66 


V 1 #10,1 


#10,2/ 




1 11,89 9,51 






1 10,90 10,37 






1 9,63 4,05 








\l 10,88 10,19/ 



u 



,6 = 



und d ■ 



\dij 



und die Vektoren 

/o, 14\ 
2,57 
0,47 
1,01 
1,52 
2,74 
0,41 
0,41 

\0, 29/ 

Mit diesen Matrizen konnen wir das Gleichungssystem in Matrixschreibweise darstellen als 

y = Xh+d 

wobei Vektoren und Matrizen unterstrichen sind. 

Auch hier wird die Quadratsumme der Residuen minimiert, um die Regressionskoeffizienten zu erhalten. Diese berechnen sich mit der Formel 

b = (X'Xr'^y- 

Wir erhalten den Vektor der Regressionskoeffizienten 

0,556 



b_={X>X)-'X!y = 



0,089 
. -0, 117y 



also 



popgrow = 0, 556 I 0, 089 ■ birth — 0,117- mart bzw. 
y= 0,556 I 0,08toi- 0,117^2 

Das BestimmtheitmaG ist hier 88,8%. Die Anpassung hat sich betrachtlich verbessert. Hier scheint das Zusammenwirken der beiden 
Regressoren mehr bewirkt zu haben als die „Summe der Teile". 

Die Wurzel aus dem Bestimmtheitsmaft ergibt den multiplen Korrelationskoeffizienten r = 0,942. Der multiple Korrelationskoeffizient kann 
nurzwischen und 1 liegen, wobei 1 wiedervollstandige Korrelation bedeutet. 

Die Regressionskoeffizienten 0,089 und 0,117 sind die partiellen Ableitungen der Regressionsebene. Man konnte die Koeffizienten so 
interpretieren: Steigt bei konstanter Sterblichkeit die Geburtenrate um einen Punkt, erhoht sich das Bevolkerungswachstum um ca. 0,1 Prozent. 
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Steigt dagegen bei konstanter Geburtenrate die Sterblichkeit urn einen Punkt, sinkt das Bevolkerungswachstum um ca. einen Punkt. Eine 
simultane Analyse der Regressionsebene bezuglich beider Regressionskoeffizienten ist kompliziert und meistens auch nicht sinnvoll 
interpretierbar. Die Analyse eines Regressionskoeffizienten bei Konstanthaltung der ubrigen Regressoren nennt man eine Ceteris-Pari bus- 
Analyse. 

In der Regel ist die Berechnung der Regressionskoeffizienten im multiplen linearen Regressionsmodell so aufwendig, daft Computer eingesetzt 
werden mussen. Spezielle statistische Datenbanksysteme wie SPSS,SAS oder Minitab ermoglichen eine umfassende Regressionsanalyse. 

Die Vor- und Nachteile der Minimum-Quadrat-Methode sind dieselben wie bei der Einfachregression: Es sei xs^ = 100 statt 10,9. Man erhalt 

popgrow =1,13 I 0, 0031 ■ birth - 0, 0092 ■ mart 

mit einem BestimmtheitsmaG von 0,7%. 



5.3. 



Zeitreihenanalyse 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 5 vom Inhaltsverzeichnis 



Einfiihrung 

Zeitreihen sind Beobachtungen, die im Lauf der Zeit erhoben wurden. Bei der Analyse von Zeitreihen versuchen wir, die Beobachtungen durch 
den Faktor Zeit zu erklaren. Wir suchen nach bestimmten GesetzmaGigkeiten, nach denen diese Zeitreihen zustande kommen. 

Fur die optische Unterstutzung stellen wir eine Zeitreihe als Streudiagramm dar. Um den Verlauf, die Entwicklung des Merkmals darstellen, 
konnen wir die Punkte zu einer Kurve (Polygonzug) verbinden. 

Wir haben hier beispielsweise das Bruttoinlandsprodukt der Bundesrepublik Deutschland (Quelle: © Statistisches Bundesamt Deutschland 
2005) der Quartale 2001 bis 2005 gegeben. 



Stichtag 


Mrz01 


Jun01 


Sep 01 


Dez01 


Mrz02 


Jun 02 


BIP 


514,51 


522,63 


531,51 


544,91 


519,19 


531,66 




Stichtag 


Sep 02 


Dez02 


Mrz03 


Jun 03 


Sep 03 


Dez 03 


BIP 


546,06 


551,9 


524,4 


533,59 


550,76 


556,12 






Stichtag 


Mrz04 


Jun 04 


Sep 04 


Dez 04 


Mrz05 




BIP 


537,36 


547,85 


557,21 


564,82 


539,78 
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510 



& ^** tf 4? ^ **** & s»%* o* ^ ^ ^ o* ^ 

Slicmagt 



Zeitreihe des deutschen Bruttoinlandsprodukts (Milliarden €) fur die Quartale :'i 
der Jahre 2001 bis 2005 



Modell der Zeitreihe 

Die Zeitreihenanalyse erfordert die Konzipierung der Zeitreihe als Modell: 

Wir betrachten einen Beobachtungszeitraum mit T vielen Zeitpunkten t. Zu einem Zeitpunkt t gehort die Beobachtung yt des Merkmals y. 

Da Zeitangaben haufig unhandlich bei der Berechnung sind (z. B. 1.3.1996), empfiehlt es sich, die Zeitpunkte durchzunummerieren, z.B. t = 1, 
2, ... , n. 

Beispiel Grofihandel 

Es liegen n = 60 Quartalsumsatze des GartenbedarfsgroGhandels Rosalinde vor. Die Quartale sind durchnummeriert als t = 1, ... , 60. Es sind 
hier nur die ersten Beobachtungen wiedergegeben. Die komplette Zeitreihe befindet sich in Zeitreihe Rosalinde. 



Stichtag zum Ende des Monats 


Quartal 


Umsatz in Mio. € 


Linearer Trend 


Mrz90 


1 


52,19 


42 


Jun 90 


2 


48,69 


44 


Sep 90 


3 


49,28 


46 











Stichtag zum Ende des Monats 


Saisonaler Zyklus 


Konjunktureller Zyklus 


Restschwankung 


Mrz90 


6,00 


3,06 


1,13 


Jun 90 


0,00 


5,66 


-0,96 


Sep 90 


-6,00 


7,39 


1,89 











> riar I ImeoHo ofalnanH lot Co o/->kio 
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vvii ociicii, uaoo uic icnucn^. uci umoai^c oiciycnu 101. i_o ooiicini 

sich aufterdem ein vermutlich konjunkturellerZyklus abzuzeichnen, 
derz. B. 1992 ein Tief und 1995 ein Hoch hatte. Und es ist deutlich 
ein einjahriger, saisonaler Zyklus zu erkennen, der auch aus der 
Tabelle ersichtlich ist. 

Wir konnen also die Komponenten der Zeitreihe unterscheiden: 

• Trend Q 

• Konjunkturelle Schwankung K 

• Saisonale Schwankung S 

• Rests chwankung r 

Sind diese Komponenten unabhangig voneinander, gehen wirvom 
additiven Modell aus: 

y=Q+K+S+r 



Quartalsumsatz des Gartenmarktes 
Rosalinde 




Zeitreihe der Quartalsumsatze des Grofthandels Rosalinde 



160 
140 
120 

| 100 
§ 80 
| 60 
| 40 
20 
o 



^T^^ut^C^^ 



-20 & 



— Tttnd — Sdisonato Schwa nkun$ — Kenjun km relic Schwankung 



Zerlegung der Zeitreihe Rosalinde in die einzelnen Komponenten 





ii:]::::::::::::::c:]::::::^z=s 


B 140 

1 i». A ,-o r 


1 


i " F Aiii 


* 

E An . ft *- fiJ.^ J 


3 -jf 


D 10 2D 30 40 SO 60 

Quarts! 


Summe der Zeitreihenkomponenten ohne Restschwankung 



Oft uberlagern sich mehrere zyklische Schwankungen. Es gibt hier spezielle Verfahren, die Zyklen zu identifizieren. 

Ein Problem in der Zeitreihenanalyse ist die Wahl des richtigen Modells. Bei den einfacheren Modellen beschrankt man sich meist auf die 
Bestimmung einer glatten Komponente, die aus Trend und/oder konjunktureller Komponente gebildet wird, einer saisonalen Komponente und die 
Restschwankung. 



5.3.1. 



Trend und Saisonkomponente 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 5 vom Inhaltsverzeichnis 



Ublicherweise wird bei der Schatzung des Trends Q und der Saisonkomponente S so vorgegangen, dass zuerst der Trend Q bestimmt wird. Es 
wird dann y vom Trend bereinigt, d.h. von Beobachtungen y t werden die Trendwerte Qt abgezogen. Aus den resultierenden Restwerten wird dann 
die saisonale Komponente errechnet. Man kann auch beide Komponenten mit Hilfe der multiplen Regression auf einmal bestimmen. 

Schatzung des Trends mit der Regressionsgerade 

Wenn wir von einem linear verlaufenden Trend ausgehen konnen, schatzen wir ihn mit dem Regressionsmodell 
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y t = U+ bt bz\N.y t = a + bt + d t (t=\,2,...,T;y t =y h y 2 ,...,yT) 
mit den Losungen 



b = 



ELift-t) 2 
ELi* 2 -T-f 2 



und 



s = y — b ■ t 

= y — b • • 

Die Trendwerte Qt sind dann 

Q t = y t = a + bt 

Beispiel Herrenbekleidung 

Die monatlichen Auftrage fur die letzten 3 Jahre eines Herstellers fur Herrenbekleidung (in 1000 Stuck) sind durch die unten folgende Zeitreihe in 
derZeitreihe Herrenbekleidung gegeben, von der ein Ausschnitt vorliegt. Die Grafik zeigt, daft offensichtlich ein steigender I i nearer Trend mit 
saisonalem Jahreszyklus vorliegt. 



t 


Yt 


tyt 


t 2 


1 


20 


20 


1 


2 


22 


44 


4 


3 


24 


72 


9 


4 


21 


84 


16 










666 


828 


15889 


16206 




Wir ermitteln zuerst die arithmetischen Durchschnitte: 

- 666 

t = = 28 5 und entsprechend y. = 26- Dann erhalten wir fur 

36 
den Regressionsansatz 

ij t = a | bt 

die Regressionskoeffizienten nach dem Verschiebungssatz 



Monatliche Auftrage fur Fblohemden eines Herstellers fur 
Herrenbekleidung 
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t 15889-36-18,5-23 n , Ann 
"= 16206-36.18,5' = °' 1470 

und 

a . = y - b ■ t = 23 - 0, 1470 -18,5 = 20, 2810 

Die geschatzten Trendwerte sind y t =a \ bt, z.B. 

yi = 20,2810 I 0,1470-1^20,43. 
y 2 = 20,2810 I 0, 1470 ■ 2 ft* 20, 57. 

USW. 

Die Residuen sind 

Z/i - yi = 20 - 20, 43 = -0, 43. 
y 2 - & = 22-20, 57 =1,43. 
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t 


yt 


a + bt 


dt 


1 


20 


20,43 


-0,43 


2 


22 


20,57 


1,43 


3 


24 


20,72 


3,28 


4 


21 


20,87 


0,13 


5 


18 


21,02 


-3,02 


6 


20 


21,16 


-1,16 










34 


26 


25,28 


0,72 


35 


23 


25,43 


-2,43 


36 


24 


25,57 


-1,57 



Liegt ein nichtlinearer Trendverlauf vor, kann auch ein nichtlinearer Regressionsansatz gewahlt werden. Es konnen neben t auch andere exogene 
Variablen in das Modell aufgenomen werden. 

Schatzung der Saisonkomponente 

Gehen wir von dem additiven Modell 

yt = Qt + s t + r t 
aus, bleibt nach Schatzung derTrendkomponente Q noch die Abweichung 

d t =yt~Qt 
ubrig, die sich zusammensetzt aus 

Wir nennen deshalb dt auch den trendbereinigten Zeitreihenwert. Es soil nun noch die saisonale Komponente St ermittelt werden. Wir konnten 
etwa versuchen, diese zyklische Komponente mit einer Sinusfunktion zu schatzen. Einfacher ist aber folgendes Vorgehen: Wir ermitteln die 
trendbereinigten Zeitreihenwerte dt. Dann wird aus alien Werten dt, die die gleiche Saison betreffen, ein arithmetischer Durchschnitt gebildet, der 
als Schatzung fur die saisonale Komponente verwendet wird. 



Beispiel Herrenbekleidung 

Fur die Januar-Saisonkomponente werden alle Januarwerte der dt gemittelt 

-0,43-0,19-2,96 



Sj an = Si = D13 = S>25 = 



= -1,19 



r t =yt-Qt-s t 
ergibt dann die nichterklarte Restschwankung. 
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Wir konnen jetzt eine Prognose fur den Zeitpunkt T+k ermitteln als 

J/T+Jt = Qr+k + St+a, 

wobei wir fur St den Saisonwert fur diejenige Saison wahlen, die in T+k auftritt. 

Beispiel fiir eine Prognose : 

Wir wollen fiir Marz des 4. Jahres eine Prognose des Auftragseingangs machen. Es handelt sich um den Zeitpunkt t = 39. 

Wir erhalten den Trend als 

Q%> = 20, 281 I 39-0, 147 = 26,014 

und die Saisonkomponente als 

ga = 3,2842 51l4,75 = 351 



Die Prognose errechnet sich nun als 

26,014 + 3,51=29,524. 

Multiplikative Verkniipfung der Zeitreihen-Komponenten 

Bisherwurde von einer additiven Uberlagerung des Trends durch die Saisonkomponente ausgegangen, d.h. die Komponenten wurden als 
unabhangig angesehen. Haufig nehmen aber die zyklischen Schwankungen mit steigendem Trend zu. Es konnte hier beispielsweise das 
multiplikative Modell 

y t = Qt- K t ■ n 

vorliegen. Wir konnen den Ansatz logarithm ieren und erhalten 

logy, = \ogQ t + \ogS t + \ogr t 
Mit dem logarithmierten Ansatz fuhren wir die Zerlegung des Modells in seine Komponenten durch, wie oben beschrieben. 



5.3.2. 



Glattungsverfahren 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 5 vom Inhaltsverzeichnis 



Schatzung derglatten Komponente mit gleitenden Durchschnitten 

Lasst sich die Trendkomponente des Zeitreihenmodells offensichtlich durch keine funktionale lineare oder nichtlineare Beziehung darstellen, 
kann man eine glatte Komponente mit Hilfe gleitender Durchschnitte bestimmen. 

Gleitende Durchschnitte ungeradzahligerOrdnung 

Beispiel Hotelaufenthalte (G. D. 3. O) 

In einem Kurhotel werden Ende April, Ende August und Ende Dezember die Zahl der Hotelaufenthalte festgehalten. Es wurde mit Ende 
Dezember begonnen. 



Stichtag 


t 


Aufenthalte y t 


Dez89 


1 


408 


Apr 90 


2 


372 


Aug 90 


3 


480 


Dez 90 


4 


444 
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Apr 91 


5 


447 


Aug 91 


6 


492 


Dez91 


7 


429 


Apr 92 


8 


411 


Aug 92 


9 


486 


Dez92 


10 


525 


Apr 93 


11 


495 



Zur Ermittlung des Trends wurden gleitende Durchschnitte 3. Ordnung gebildet: 

y 2 = - . (408 + 372 + 480) = 420 

1 
y 3 = - ■ (372 + 480 + 444) = 432 

1 
y a = - . (4H + 486 + 525) = 474 

y w = - . (486 + 525 + 495) = 502 



Stichtag 


t 


Aufenthalte y t 


yt 


Dez 89 


1 


408 




Apr 90 


2 


372 


420 


Aug 90 


3 


480 


432 


Dez 90 


4 


444 


457 


Apr 91 


5 


447 


461 


Aug 91 


6 


492 


456 


Dez 91 


7 


429 


444 


Apr 92 


8 


411 


442 


Aug 92 


9 


486 


474 


Dez 92 


10 


525 


502 


Apr 93 


11 


495 





$w 



400 




4 6 8 

Zeflpunktt 



10 12 



-Aufenthalte -*— CI. D, 3 r Orclung 



Gleitende Durchschnitte 3. Ordnung fur die Zahl der Hotelauf enthalte £^ 
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L 



J L 



J I 



Der Index t der Glattung y t entspricht immer dem Beobachtungswert in der Mitte der beteiligten Zeitreihenwerte. 

Man sieht, dass die gleitenden Durchschnitte die starken Schwankungen glatten und man den Trend, oder besser die glatte Komponente, 
besser erkennt. 

Die Zahl der beteiligten Beobachtungen gibt die Ordnung des Durchschnitts an. Man berechnet einen gleitenden Durchschnitt 3. Ordnung 
folgenderma&en: 

V1+V2 + V3 

fa = 3 

V2 + yi + y± 

y r — a — 

'^' _ yt-i + Vt + yt+i 

Vt — ^ 



Vn-l 



y-n-2 + yn-1 + Vn 



Entsprechend ergeben sich gleitende Durchschnitte 5. Ordnung als 
3/l + V2 + 3/3 + J/4 + J/5 



Va 



V* 



yt 



3/2 + y 3 + j/4 + jfe + j/6 

5 
y t _ 2 + yt-i + yt + Jft+i + Vt-Yi 



Beispiel Hotelaufenthalte (G. D. 5. O) 

Wir berechnen die gleitenden Durchschnitte 5. Ordnung als 

408 + 372 + 480 + 444 + 447 
Wa = i 



2/4 = 
usw., also 



372 + 480 + 444 + 447 + 492 



Stichtag 


t 


Aufenthalte yt 


yt 


Dez89 


1 


408 




Apr 90 


2 


372 




Aug 90 


3 


480 


430,2 


Dez 90 


4 


444 


447 


Apr 91 


5 


447 


458,4 


Aug 91 


6 


492 


444,6 



500 



450 




4 6 8 10 12 

Zeitpunfctt 



-Aufenthalte -*-GI, D, COnlurig 



Gleitende Durchschnitte 5. Ordnung fur die Zahl der Hotelauf enthalte £3 
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w 








Dez91 


7 


429 


453 


Apr 92 


8 


411 


468,6 


Aug 92 


9 


486 


469,2 


Dez92 


10 


525 




Apr 93 


11 


495 





Zur Prognose uberden Beobachtungszeitraum hinaus sind gleitende Durchschnitte nicht so recht geeignet, da die Randwerte derZeitreihe nicht 
geschatzt werden. Allerdings gibt es Verfahren, mit denen man diese Werte durch eine Gewichtung der benachbarten Werte ausfullen kann. 

Gleitende Durchschnitte geradzahligerOrdnung 

Die Rechtfertigung fur gleitende Durchschnitte als Schatzung fur die glatte Komponente begrundet sich darin, daft sich saisonale 
Schwankungen kompensieren, d.h. daft sich positive und negative Abweichungen der Saisonkomponente vom Trend aufheben. Das ist 
allerdings nur dann gegeben, wenn die Breite, also die Ordnung des gleitenden Durchschnitts genau einen Zyklus umfaftt und wenn alle Zyklen 
die gleiche Lange aufweisen. Sonst konnen gleitende Durchschnitte verzerrte Schatzungen liefern. 

Die Breite saisonaler Schwankungen ist allerdings meist geradzahlig, z.B. Quartale, Monate usw. Es entsteht hierdas Problem, daft bei der 
Durchschnittsbildung ein Schatzwert yt+0,5 zwischen zwei Beobachtungswerte yt und y t+ -| zu liegen kommt, was meist unerwunscht ist. Man 
behilft sich hier so, daft man den Durchschnitt auf der Zeitachse urn eine halbe Zeiteinheit nach rechts verschiebt. Die beiden Randwerte, die 
nurteilweise erfaftt werden, gehen mit einem Gewicht von 0,5 in den Durchschnitt ein, 

z.B. statt 

£/2 + 2/3 + £/4 + £/5 

y^ = a 



berechnet man 



Vi = 



£ + y 3 + ?/4 + y 5 + ^ 



Beispiel 

Es liegen 12 Quartalswerte vor und es sollen gleitende Durchschnitte 4. Ordnung ermittelt werden. 



t 


yt 


gleitender Durchschnitt 4. Ordnung 


1 


12 




2 


8 




3 


12 


12 


4 


14 


13 


5 


16 


14,125 


6 


12 


15,625 


7 


17 


17,5 


8 


21 


19 


9 


24 


20,5 
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10 


16 


21,5 


11 


25 




12 


21 





Z.B. 

V2 = ~= 1 = 12 

_ f + 12+14+16+^ ^ 

v± = 1 = is ■ 

Exponentielle Glattung 

Lasst eine Zeitreihe keinerlei systematisches Muster wie linearen Anstieg Oder Ahnliches erkennen, kann man versuchen, mit der 
exponentiellen Glattung eine glatte Komponente nachzubilden. Insbesondere kann man damit eine Prognose fur den Zeitpunkt T+ 1 erhalten. 

Das Verfahren wird beispielsweise in der Lagerhaltung verwendet, wenn es etwa darum geht, den Bedarfeines zu bestellenden Artikels im 
kommenden Jahrzu ermitteln. So hat etwa die SchweizerArmee mit der exponentiellen Glattung gute Erfolge bei der Ermittlung der benotigten 
Gewehre im folgenden Jahr gemacht. 

Man geht von dem Ansatz aus, dass der gegenwartige Zeitreihenwert immer auch von den vergangenen Werten beeinflusst wird, wobei sich der 
Einfluss abschwacht, je weiter der Wert in der Vergangenheit liegt. 

Formales Modell 

Gegeben ist eine Zeitreihe mit den Beobachtungen y-|, y 2 , ..., yt, ... zu den Zeitpunkten t. Im Zeitpunkt t wird fur y t ein geglatteter Schatzwert y* t 
errechnet, der sich als gewichteter Durchschnitt ergibt aus dem aktuellen Zeitreihenwert y t und dem Schatzwert der Vorperiode y *t- 1 - Die 
Gewichtung wird durch den Glattungsfaktor a bestimmt, wobei < a < 1 sein muss. Man erhalt 

Die Zeitreihe baut sich so rekursivauf. Theoretisch ist die laufende Zeitreihe beim Zeitpunkt t bereits unendlich lang. Fur die praktische 
Ermittlung des geglatteten Wertes wird man allerdings einen Startwert y* vorgeben und von da an die geglattete Zeitreihe ermitteln. 

Baut man nun, beginnend bei y*o, die geglattete Zeitreihe auf, 



y** = ayz + {l - a)y\ 



erhalt man, wenn man die Rekursivitat auflost, 

yl = ay t + a(l- a)j/ t _! + a{l - afy t -2 + ... + a(l - a)*"Vi I ( l ~ ^)Vo ■ 

Man sieht, wie wegen a < 1 die Einflusse der Vergangenheit immer mehr verschwinden. 

Der Schatzwert y*t liefert den Prognosewert fur den Zeitpunkt t+1. Liegt dann im Zeitpunkt t + 1 eine neue Beobachtung vor, kann die Prognose 

fur t + 2 ermittelt werden usw 

Fur die Wahl des Glattungsfaktors wird haufig 0,2 bis 0,3 empfohlen. Man kann aber auch mit Hilfe der Regressionsanalyse den Glattungsfaktor 
schatzen. 

Einfaches Zahlenbeispiel 

Es sind die Zeitreihenwerte y-|. ..., y-io gegeben, wie unten in der Tabelle aufgefuhrt. Diese Werte sollen exponentiell geglattet werden. Es wurde 
ein Glattungskoeffizient von a = 0,3 gewahlt und man benotigt einen Anfangswert, der hier y * = 19 betragen soil. Wir beginnen 



PDFmyURL.com 



yi* = 0,3-20 I 0,7-19 = 6 I 13,3= 19,3 
?/ 2 * = 0,3 -18 I 0,7-19,3= 18,91 

usw. In der Tabelle sind die Glattungen fur ausgewahlte Werte von a aufgefuhrt. 



t 


yt 


y t * 


y t * 


yt* 






a = 0,3 


a = 0,1 


a = 0,6 





- 


19 


19 


19 


1 


20 


19,3 


19,1 


19,6 


2 


18 


18,91 


18,99 


18,64 


3 


21 


19,54 


19,19 


20,06 


4 


22 


20,28 


19,47 


21,22 


5 


19 


19,89 


19,42 


19,89 


6 


21 


20,23 


19,58 


20,56 


7 


18 


19,56 


19,42 


19,02 


8 


20 


19,69 


19,48 


19,61 


9 


21 


20,08 


19,63 


20,44 


10 


17 


19,16 


19,37 


18,38 













23 
22 

21 
20 
19 
18 
17 
16 




! 1 1 ! ! 1 1 - 

23456789 10 11 
I -#-yt -*-a^ OJ -*- « ;= 0,1 -»-a^ 0.6 I 



Zeitreihe mit exponentiell geglatteten Werten 



Die Graphik zeigt die Glattung fur a = 0,1, a = 0,3 und a = 0,6. Man sieht, dass der kleinste Glattungsfaktor die Zeitreihe am starksten glattet, 
denn hier geht der aktuelle Wert nur mit einem Gewicht von 0,1 ein, wogegen die „mittleren" Vergangenheitswerte weiterhin mit 0,9 
berucksichtigt werden. 

Beispiel fur den exponentiell geglatteten DAX 

Es soil mit den monatlichen Durchschnittswerten des Aktienindex DAX fur die Monate 
Januar 1977 bis August 1978 eine exponentielle Glattung berechnet werden. Die Daten 
liegen nebst den geglatteten Zeitreihenwerten in der Tabelle vor: 



DAX -Werte und ihre exponentielle Glattung (a = 0,3) 


Monat 


Zeitpunktt 


DAXVt 


Glattung y*t 


1977 Jan 





512,3 


512,3 


1977 Feb 


1 


496,2 


507,5 


1977 Mrz 


2 


509,8 


508,2 


1977 Apr 


3 


551,9 


521,3 


1977 Mai 


4 


539,9 


526,9 




Graph der einfach geglatteten DAX-Werte. (Copyright: <P 
Deutsche Bundesbank, Frankfurt am Main, Deutschland) 
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1977 Jun 


5 


524,9 


526,3 


1977 Jul 


6 


530,3 


527,5 


1977 Aug 


7 


540,9 


531,5 


1977 Sep 


8 


541,3 


534,4 


1977 Okt 


9 


554,2 


540,4 


1977 Nov 


10 


557,5 


545,5 


1977 Dez 


11 


549,34 


546,7 


1978 Jan 


12 


549,4 


547,5 


1978 Feb 


13 


552,9 


549,1 


1978 Mrz 


14 


549,7 


549,3 


1978 Apr 


15 


532,1 


544,1 


1978 Mai 


16 


545,5 


544,5 


1978 Jun 


17 


553,0 


547,1 


1978 Jul 


18 


582,1 


557,6 


1978 Aug 


19 


583,1 


565,2 



Der erste Wert wird mit 512,3 als Startwert y*o genommen. Wir verwenden einen Glattungsfaktor a = 0,3. 
Es ergeben sich die geglatteten Werte 

yl = 0,3 -496,2 | 0,7-512,3 = 507,5, 
y* 2 = 0,3 -509,8 I 0,7-507,5 = 508,2, 
yl = 0,3 -551, 9 + 0,7 -508, 2 = 521,3, 



Die Schatzung y*-| ist jetzt der Prognosewert fur die Periode 2 und so weiter. 

Die Grafik zeigt die Glattung fur a = 0,3 und a = 0,7. Man sieht, dass der kleinere Glattungsfaktor die Zeitreihe starker glattet, denn hier geht 
der aktuelle Wert jetzt nur mit einem Gewicht von 0,3 ein, wogegen die „mittleren" Vergangenheitswerte weiterhin mit 0,7 berucksichtigt werden 

Exponentielle Glattung bei trend be hafteten Werten 

Die exponentielle Glattung ist dann ein empfehlenswertes Verfahren, wenn die 
Zeitreihenwerte einen chaotischen Eindruck machen und keinerlei Systematik 
erkennen lassen. Liegen allerdings Beobachtungen vor, die einen Trend beinhalten, d.h. 
die laufend steigen oder fallen, „schleppen" die geglatteten Werte „hinterher". Man sieht 
in der Grafik deutlich, wie die Schatzwerte immer systematisch unter den 
beobachteten Werten liegen. Auch in der oberen Grafik der Dax-Kurse liegen 
beispielsweise zwischen t = 7 und t = 12 die einfach geglatten Schatzwerte immer 
systematisch unter den beobachteten Werten. 

Eine zufriedenstellende Losung fur das Problem, daft bei einem steigenden (fallenden) 
Trend die Zeitreihenwerte systematisch unterschatzt (uberschatzt) werden, bieten 
gleitende Durchschnitte zweiter Ordung. Hier werden die bereits einmal geglatteten 
Werte noch einmal einer Glattung unterzogen. Man erhalt den Schatzwert y * * , der 
sich analog zu oben berechnet aus 

y? = *-yl I (l-a)-Dpi 




Die geglatteten Prognosew erte y* liegen systematisch <iP 
unter den beobachteten trendbehaf teten Zeitreihenw erten y 
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Fur einen brauchbaren Prognosewert fur Periode t+1 muss man dann bestimmen 

y t+1 = 2-y t - y t _ ± ■ 




-*-y ^Y* ~^y'* -^doppeif gegiaitetes y 



Mit doppelt geglatteten Zeitreihen erreicht man eine 
korrekte Prognose der trendbehafteten y-Werte 



Mallzahlen 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 6 vom Inhaltsverzeichnis 



6.1. 



Konzentration 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 6 vom Inhaltsverzeichnis 



Die Konzentration befasst sich mit der Intensitat, mit der sich ein Objekt auf eine vorgegebene Menge verteilt. Eine typische Aussage der 
Konzentrationsmessung ware etwa: 20% der Menschen eines bestimmten Staates besitzen 90% des Vermogens. Demnach teilen sich die 
anderen 80% die restlichen 10%. Hier kann man von einer starken Konzentration sprechen. 

Kino-Be ispiel 

lm Rahmen einer Controllinganalyse eines Kinos wurden die Besucherzahlen (Merkmal x) fur die 5 angebotenen Spielfilme an einem Tag 
erfasst. Man erhielt die Tabelle 



Filmtitel 


Zahl der Besucher x 


Rotkappchen 


25 


Verliebt ins Abendrot 


75 


Leif Erikson 


125 


Sonne derAlhambra 


250 


Galaxy-Fighter 


525 



Definitionen 

Es gibt verschiedene Verfahren zur Konzentrationsmessung. Man kann die Konzentration grafisch darstellen oder Kennwerte berechnen. Die 
Merkmalsbetrage x mussen aufsteigend geordnet vorliegen, also Xiu ^^[2] ^ ■■■ ^ ^\n\ 

Fur die Konzentrationsmessung werden neben der relativen Summenfunktion S* folgende Definitionen benotigt: 



Merkmalssumme /^ ^* — TL - X 

i 

Kumulierte Merkmalsbetrage q. 



E ■<':*■: 



• Relative kumulierte Merkmalsbetrage q^ 

Grafik 



nx 
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Die Lorenzkurve ist eine grafische Darstellung der Konzentration: 

Die Wertepaare (S*;q*) werden in einem Diagramm abgetragen. Das erste Wertepaar ist (0;0), das letzte (1;1). Es wird zwischen diesen beiden 

Wertepaaren die Winkelhalbierende des Koordinatensystems eingetragen. Alle Wertepaare (0;0), (S-|*;q-|*), ... , (1;1) werden geradlinig 

verbunden. 

Tabelle Die fur die Lorenzkurve benotigten Zwischenwerte werde in der folgenden Tabelle aufgefuhrt. So ergibt sich beispielsweise fur die 
kumulierten Merkmalsbetrage q; 

#1=25, ^2=25 + 75=100, q 3 = 100 + 125 = 225 usw. 

Die relativen oder anteiligen Merkmalsbetrage errechnen sich durch Teilen des Gesamtmerkmalbetrags 1000, also 

25 

Ebenso ermitteln wir die absolute Summenhaufigkeiten als Zahl der Filme, also 

Si = l , ^2 = 1 + 1=2, S 3 =2+l = 3 ... 
und wiederum die relative Summenhaufigkeit mit 

S*= 1 = 0,2.$=*; = 0,4 



Es wurde aufterdem noch als Platzhalter die Zeile fur 


i = eingefugt 








i 




Filmtitel *i 


qi 


qf 


Sj 


Sj* 

















1 


Rotkappchen 25 


25 


0,025 


1 


0,2 


2 


Verliebt ins Abendrot 75 


100 


0,100 


2 


0,4 


3 


LeifErikson 125 


225 
475 


0,225 


3 


0,6 


4 


Sonne der Alhambra 250 


0,475 


4 


0,8 


5 


Galaxy-Fighter 525 


1000 


1,000 


5 


1 


Summe 




1000 











So wurden beispielsweise 40% (S2*) der Filme von nur 10% (q2*) der Besucher angesehen. 

Die Lorenzkurve ist eine grafisches Maft fur das Ausmaft einer Konzentration. Je weiter die Kurve „durchhangt", desto grower ist die 
Konzentration. Unten sind die beiden extremen Situationen dargestellt, die gleichmaftge Aufteilung der Objekte auf die gesamte Menge und die 
vollstandige Konzentration, bei derein Element alle Objekte auf sich vereint und alle anderen Elemente leer ausgehen. 
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1 

0,8 

M 

0,4 

0,2 



I 










> 0,2 0,4 d.e 0,8 1 


Lorenzkurve bei gleichmaftiger Aufteilung 





M 
0,6 

0,4 
0,2 




1 


' 

i 


] 0,2 0,4 0,6 0,3 


Lorenzkurve bei vollstandiger Konzentration <P 



Werden mehrere gleichartige Gesamtheiten gegenuberstellt, bieten die verschiedenen Lorenzkurven eine schnelle optische 
Vergleichsmoglichkeit. Siehe dazu auch das weiter unten folgende Beispiel mit den Agrarflachen in Bayern. 

Ginikoeffizient 

Als Ginikoeffizient G wird bezeichnet der Anteil der Flache, die durch die Winkelhalbierende und die Lorenzkurve gebildet wird, an der 
Gesamtflache unter der Winkelhalbierenden. Wenn vollkommene Konzentration besteht, ist die Flache iiber der Lorenzkurve deckungsgleich mit 
dem Dreieck unter der Winkelhalbierenden. G ist dann 1. Bei fehlender Konzentration ist dann G=0. 

Ermittlung des Ginikoeffizienten 

Verbindet man die Punkte auf der Lorenzkurve mit den entsprechenden Punkten auf der Winkelhalbierenden, wird klar, dass wir es mit n vielen 
Trapezen zu tun haben, deren Flachen wir einzeln bestimmen und dann aufsummieren. Die Flache eines Trapezes, wie in der Grafik angegeben, 
ermittelt man als 

F = l --{a\ c)-h- 



Wirwollen die Flache F3 des Trapezes zwischen den Abszissenwerten (x-Achse) 0,4 und 0,6 ermitteln. Man sieht, dass das Trapez im 
Vergleich zur obigen Grafik gekippt vorliegt. Die Hone h ist also die Differenz 

S* 3 -S* 2 = 0,6-0,4 = 0,2. 
Wir fassen a als linke Senkrechte von F3 als a auf: Dann ist 

a =0,4 -0,1 =0,3. 
Entsprechend betragt die rechte Seite c 

c = 0,6 -0,225 = 0,375 
und wir erhalten als Flache 

F 2 = (0,3 + 0,375) -0,5 -0,2 = 0,0675- 

Allgemein: Die obige Flache ergibt sich dann als 

£(S*< -5*,_!) ■ IdS*, -q^+iS*^ -q*^)) 
i=l Z 

Es folgt beispielhaft die Berechnung des Gini in derTabelle. Mit Tabellenkalkulation 
kann der Ginikoeffizient leicht ermittelt werden. Wir erhalten schlieftlich fur den 
Ginikoeffizienten 



□,a 



Si 
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-°lf=°." 





q*i 


S*j 


=Si-S*i. 
1 


a i 
=S* r 

q*i 


=S* M -q*i- 
1 


0,5- 
(aj+Cj) 


0,5 ■ (aj+Cj) ■ 
hi 


- 








- 


- 


- 


- 


0,0175 


1 


0,025 


0,2 


0,2 


0,175 





0,0875 


2 


0,1 


0,4 


0,2 


0,3 


0,175 


0,2375 


0,0475 


3 
4 


0,225 


0,6 


0,2 


0,375 
0,325 


0,3 


0,3375 


0,0675 


0,475 


0,8 


0,2 


0,375 


0,35 


0,07 


5 


1 


1 


0,2 





0,325 


0,1625 


0,0325 


Summe 














0,235 




Q,1 0.2 0.3 M 0,5 0,6 0,7 0,6 0,9 
AnlHllderFIImB 



Ginikoeffizient 











h 


r s 


*- n r / 








/ 




S"i.r tfn 




* 































i 0,e 
■ « 

1 

I 0,3 
0,2 

0.1 

a 

0,1 0.2 0,3 0.4 0,5 0,6 0,7 0.8 Ofi i 

Artlfiil dfrr^FilrttC- 

Ginikoeffizient: Ermittlung einer Trapezf lache fur i=3 



Metrisches Merkmal mit wenig moglichen Auspragungen 

Beispiel 

Das interessierende Merkmal ist die Zahl der Autos in einem Haushalt. Es wurden 50 Haushalte befragt. 
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j 


X J 


n J 


S J 


c.* 


Xjllj 


qj 


If 


1 





10 


10 


0,2 








0,00 


2 


1 


20 


30 


0,6 


20 


20 


0,27 


3 


2 


10 


40 


0,4 


20 


40 


0,53 


4 
5 


3 
4 


5 
5 


45 
50 


0,9 
1 


15 
20 


55 
75 


0,73 
1 


Summe 




50 






75 













0,9 

0,6 

■„0J 

| 0,$ 

3^ 

1M 

* 0,J 

o,z 

0,1 








) 0.1 0.2 0.3 r 4 O.S 0,6 O.T O.B 0,9 




Lorenzkurve fur die Verteilung der PKWs auf Haushalte dP 



Lorenzkurve und der Ginikoeffizient berechnen sich im Prinzip wie oben, statt i wird hier der Index j verwendet. Der Merkmalsbetrag Xj wird durch 
Xj*nj ersetzt. 

Klassiertes Merkmal 



Beispiel 



Landwirtschaftliche 
Nutzflache 


Zahl der Betriebe 
(1000) 


von ... bis ... unter 


1980 


2003 


2-10 


112 


43 


10-20 


78 


34 


20-30 


34 


18 


30 Oder mehr 


20 


36 
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1 

C 0,7 

I 0^5 
5 0,4 
* 0,3 
f 0,2 

< 0,1 


I 


ndwirtschaftliche Nutzflache 1980 








I 0,1 0,2 0,3 0,4 0,9 0,0 0,7 0,E 0,9 1 
Atilell der BetrJ&be 


Lorenzkurve der Nutzflache eines bayerischen 
Landwirtschaftsbetriebes imJahr 1980 



1 
£ 0,9 
£ 0,8 
c 0J 
1 0,8 
« 0.5 

£. o,4 
! M 
<W 


Landwirtschaftliche Flache 2003 








0,1 0,2 0,3 0,4 0,5 0.6 0,7 0,8 0,9 
Ante II der Belriebe 


1 


Lorenzkurve der Nutzflache eines bayerischen 
Landwirtschaftsbetriebes im Jahr 2003 



Klasse j 

von ... bis 

unter ... 


Klassen- 
mitte 

X J 


n J 


Xj*nj 


S j 


c.* 


qj 


<r 


2-10 


6 


112 


672 


112 


0,4590 


672 


0,1683 


10-20 


15 


78 
34 
20 


1170 
850 


190 


0,7787 


1842 
2692 


0,4614 
0,6743 
1,0000 


20-30 
30-100 


25 
65 


224 


0,9180 


1300 


244 


1,0000 


3992 


Summe 


244 


3992 









Wir erhalten als Ginikoeffizient fur das Jahr 1980 den Wert 0,43 und fur das Jahr 2003 den Wert 0,46. 



7. 



Schatzen und Testen 



: hoch zum Anfang vom Inhaltsverzeichnis 
: hoch zum Kapitel 7 vom Inhaltsverzeichnis 



7.1. 



Konfidenzintervalle 



: hoch zum Anfang vom Inhaltsverzeichnis 
: hoch zum Kapitel 7 vom Inhaltsverzeichnis 



Der fruhere Inhalt wurde in Mathematik: Statistik: Prinzip des Konfidenzintervalls und Mathematik: Statistik: Ausgewahlte Konfidenzintervalle 
aufgegliedert. Hier wird demnachst etwas Allgemeines uber Konfidenzintervalle stehen. 



7.1.1. 



Prinzip des Konfidenzintervalls 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 7 vom Inhaltsverzeichnis 



Beispiel mitAbsatz von Kaffeepaketen 

Beispiel: 
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x ^ x 

Unbekanni 

Lage einer Schatzung von |j 



Eine Kaffeerosterei mochte eine neue Rostanlage anschaffen. Um beurteilen zu 
konnen, ob die Firma den aufzunehmenden Kredit tilgen kann, braucht sie 
Informationen uberden durchschnittlichen monatlichen Absatz an Kaffeepaketen. Pro 
Monat muss die Firma 20.000 €Annuitat zahlen. Zusammen mit den 
Produktionskosten sollte sie im Durchschnitt aufeinen Absatz von 100.000 
Kaffeepaketen im Monat kommen. Die Frage ist nun, wird sie es schaffen? 

Plausible Uberlegungen zur Schatzung 

Der durchschnittliche monatliche Absatz von Kaffeepaketen ist unbekannt. Wie konnte 

man den Durchschnitt ermitteln? Man konnte eine Stichprobe mit z.B. n = 50 

Beobachtungen Ziehen und versuchen, aus dem arithmetischen Mittel x auf den 

durchschnittlichen monatlichen Absatz der Grundgesamtheit zu schlieften. Ist die 

Stichprobe graft genug, kann man vermuten, dass der Durchschnitt EX in der Grundgesamtheit, hier u, in der Nahe von x liegen mCisste. 

Meistens wird x in der Nahe von u liegen, da aber x die Realisation einer Zufallsvariablen ist, kann in sehr wenigen Fallen x auch extrem weit von 

u weg liegen, so daft man dann u verkehrt einschatzt. 

Wir betrachten nun den monatlichen Absatz von Kaffeepaketen (in 1000). Wir 
bezeichnen ihn als Zufallsvariable X Es soil der monatliche durchschnittliche Absatz 
der Kaffeepackchen geschatzt werden. Bekannt ist lediglich, dass die Zahl der 
verkauften Kaffeepakete normalverteilt ist mit einer Varianz 200 [1000 2 Stuck 2 ]. 

Wie sollen wir nun u eingrenzen? Wir konnten etwa ein Intervall bestimmen, in dem 
z.B. 95% aller moglichen x-Werte liegen, also 

P(x u < x < x ) = 0, 95 . 

Damit man dieses Intervall berechnen kann, mussen Informationen uber die Verteilung 
von Xverfugbar sein. Es soil eine Stichprobe von n = 50 gezogen werden, d.h. es 
werden die verkauften Kaffeepakete der letzten 50 Monate erfasst: 
50 



X 



50 




EXi- 



95%-lntervall des durchschnittlichen monatlichen 
Absatzes 



L 



Verteilung des Merkmals und derSchatzfunktion 

Die Zufallsvariable Xin der Grundgesamtheit soil normalverteilt sein mit dem 
Durchschnitt EX= u und der Varianz VarX= o 2 . Die Varianz soil bekannt sein. 

Es wird eine Stichprobe vom Umfang n gezogen. Der Stichprobendurchschnitt Xist 
selbst eine Zufallsvariable und ist als lineare Transformation von Xwiederum 
normalverteilt, und zwar mit den Parametern 

- (7 7 

EX = fj, und var X = — . 

n 

Hier ist 

<jj__ 200 

n " 50 
Herleitung des Intervalls 

Ausgegangen wird von 

P(xu <X <x„) =0,95. 

Untergrenze u und Obergrenze o sollen nun bestimmt werden. Wir standardisieren zunachst 



= 4 




it 4 = 200 



Vergleich: Normalverteilung der Zufallsvariablen Absatz X :'i ■ 
und der Zufallsvariablen Durchschnittlicher Absatz X 




0,95 
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Ober- und Untergrenze der 
standardnormalverteilten Zuf allsvariablen Z 



so dass sich analog zu oben 

P{z,, <Z<z o ) = 0,9b 

ergibt. z ist hier das 0,975-Quantil der Standardnormalverteilung. Ein Blick in die 
Normalverteilungstabelle verrat uns, dass derz-Wert, der zur Wahrscheinlichkeit 0,975 gehort, 
1,96 ist. 

Wir konnen jetzt das entsprechende Intervall fur Z 

P{-l,m<Z < 1,96) =0,95 

angeben. Die Ungleichung wird bezuglich u aufgelost: 

PJ-1,96< ^-^<1,96J =0,95. 

P (-1, 96 < ^-=^ < 1, 96 J = 0, 95 . 

P(-l,96-2<X-/*< 1,96-2) =0,95. 
P(-X- 1,96-2 <-p< -X+1,96-2) = 0,95. 
P(x + l,96-2>fi> X- 1,96- 2) = 0,95. 
P (X- 1, 96 -2 <v<X+ 1,96-2) = 0,95. 

Dieses Intervall wird Zufallsintervall genannt, weil es von einerZufallsvariablen (jr) gebildet wird. Wir schreiben jetzt dieses Intervall mit 
Symbolen: 




Wir bezeichnen 1 -a = 0,95 als Konfidenzkoeffizient. a = 0,05 dagegen ist die 
Irrtumswahrscheinlichkeit oder das Signifikanzniveau. 



a . 



Die Breite des Intervalls ist hier 

2 ■ (2 ■ 1, 96) = 2 — ■ 2(0,975) = 7,84 . 

yjTl 

Also schwankt eine X-Schatzung fur u mit einer 95%igen Wahrscheinlichkeit in einem 
Intervall der Breite von 7840 Kaffeepaketen, d.h. u befindet sich mit einer 95%igen 
Wahrscheinlichkeit in diesem Intervall. 

Es kann aber passieren, dass die Schatzung x extrem daneben liegt. In der Grafik 
wurde mit x daneben gegriffen; dieser Fall durch diese restlichen 5% abgedeckt. 

Konkretes 95% -Konfidenzintervall 

Es liegt nun ein konkreter Schatzwert von x = 98 vor. Wir erhalten das Konfidenzintervall 



1,96-2 



y 



_ ' |ii 

x- 1,96-2 X 

Breite des Konfidenzintervalls 



^- 



x+ 1,96-2 



1 
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J v 



x liegt sehr w eit vom w ahren |j w eg 



[x-2-l,96;x+2-l,96] 
= [98-2 1,96;98 + 2-l,96] 
= [98 -3, 92; 98 I 3,92] 
= [94, 08; 101, 92] . 

Entscheidung: |j kann bei einer Wahrscheinlichkeit von 95% unter 100 liegen, also kann der 
mittlere Umsatz unter 100.000 liegen. Deshalb sollte die Firma von dieser Investition absehen. 

Was ware, wenn man [101; 108,84] erhalten hatte? Dann ware eine dauerhafte Liquiditat zu 
vermuten. 

Einfluss derVarianz auf das Konfidenzintervall 

Was ware, wenn o 2 statt 200 den Wert 5000 hatte? Dann ware 

X *«*?£- W- 

Wir erhielten das Konfidenzintervall 

[x - 1, 96 ■ \/W0\x + 1, 96 ■ V^00] 
= [98 -19, 6; 98 +19,6] 

= [78, 4; 117, 6]. 

Das hiefte, derwahre durchschnittlicheAbsatz lage mit einer Wahrscheinlichkeit von 95% zwischen 78 400 und 117 600 Packchen. Dieses 
Intervall ware eine sehr grobeAbschatzung. Mit so etwas kann man nicht mehr vernunftig planen. 

Also wird das Konfidenzintervall mit steigender Varianz breiter, die Schatzungen werden schlechter, ungenauer. Hier konnte man als Abhilfe den 
Stichprobenumfang erhohen. 

Mindest erforderlicher Stichprobenumfang 

Wie graft muss die Stichprobe mindestens sein, damit die Breite des Konfidenzintervalls hochstens 10 ist? 
Die Breite des Konfidenzintervalls ist 



2-1,96 



5000 
n 



C 10 



r 2-l,96-y/5000 
sjn > — = 27, 71 . 



Man musste also mindestens n = 769 Monate erheben, iiber 64 Jahre! 
90% -Konfidenzintervall 

Es soil nun ein 90%-Konfidenzintervall fur u bestimmt werden. 



~o;9o 


X 




\ 0,05 






\ 




1 ,64 1 ,65 



0,05 


/ 


\ 


3 90 

y0,05 


-4 -2 
-1 


i 
65 


1, 


2 

65 


4 Z 


Qn /,-KnnfiH^n7int^r 


vail 






£3 
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Wenn die vorgegebene Wahrscheinlichkeit lEP 
zwischen zwei Quantile fallt, ruckt man auf das 
auftere Quantil 



" ;x + z(0,%)- * 



x-z<0,95) ^ 

= [98-2-l,65;98 + 2-l,65] 
= [98 -3, 3; 98 + 3, 3] 
= [94, 7; 101, 3] . 

Dieses Intervall ist schmaler als das 95%-lntervall. 



v^ 



7.1.2. 



Ausgewahlte Konfidenzintervalle 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 7 vom Inhaltsverzeichnis 



Konfidenzintervalle fur den Durchschnitt einer Grundgesamtheit es se\x h ..x n eine unabnangige stichprobe 

aus der Grundgesamtheit. Der Stichprobenmittelwert ist: 
1 n 

und die Stichprobenvarianz: 

l 



= z— r E<* - *T 

n — 1 ~: 



Die observierten Werte dieser Stichprobenfunktionen deuten wir an mit X, und s 2 . 



Normalverteiltes Merkmal mit bekannter Varianz 

lm obigen Beispiel war die Verteilung des Merkmals in der Grundgesamtheit bekannt und normalverteilt und die Varianz o 2 war bekannt. Man 
erhalt hier das 1-a-Konfidenzintervall fur u, den Durchschnitt des Merkmals in der Grundgesamtheit 

Normalverteiltes Merkmal mit unbekannter Varianz 

1st zwar das Merkmal in der Grundgesamtheit normalverteilt, aber die Varianz unbekannt, muss die Varianz des Merkmals durch s 2 geschatzt 
werden. Damit erhalten wir ein Zufal Is interval I das mit Wahrscheinlichkeit 1-a den Parameter enthalt: 

P{X - t(l - |;n - 1)4- < /i < X + t(l - f;n - l)-f=) = 1 - « - 

yJTl yffl 

Daraus folgt das 1-a-Konfidenzintervall fur den Durchschnitt u des Merkmals in der Grundgesamtheit: 

[x-t{l-f;n-l)-?= ; x + t(l - f;n- 1)-^=] . 

Das Quantil ((1 — w]Tl — 1) kommt jetzt aus einer t-Verteilung mit n-1 Freiheitsgraden. Die t-Verteilung hat eine ahnliche Form wie die 
Normalverteilung, ist aber etwas breiter. In der hier betrachteten Art (zentral) ist sie ebenfalls symmetrisch. Da sie verschiedene Freiheitsgrade 
hat, ist sie nur fur ausgewahlte Quantile tabelliert. Es gilt beispielsweise 

t(0,975;4) = 2,776 
und 
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t(0,025;4) = -2,776. 

Merkmal mit unbekannter Verteilung und bekannter Varianz Ist die Verteilung des Merkmals unbekannt, aber die Varianz o 2 
bekannt, kann man fur EX des Merkmals X, das Konfidenzintervall 

[s-«(i-f)4=;* + «(i-f)-7=]- 

angeben, falls n graft genug ist (Faustregel n > 30). 

Merkmal mit unbekannter Verteilung und unbekannter Varianz 

Sind Verteilung und Varianz des Merkmals unbekannt, kann man fur n > 50 das Konfidenzintervall fur EX angeben als 

[«-z(l-f)-J= ; £ + z(l- f)-£=] . 

Konfidenzintervalle fur den Anteilswert einer dichotomen Grundgesamtheit 
Modell mit Zurucklegen 

Die Verteilung eines Merkmals einer dichotomen Grundgesamtheit lasst sich durch das Urnenmodell beschreiben. Man mochte den Anteilswert 
p, also den Anteil der Kugeln erster Sorte in der Urne bestimmen. Der Anteilswert wird geschatzt durch 
X 

worin x der beobachtete Wert der Anzahl Xder Kugeln erster Sorte in der Stichprobe ist. 

Bei einem Urnenmodell mit Zurucklegen ist Xbinomialverteilt. Falls n graft genug ist (als Faustregel gilt: n > 100 und np(l — p) !> 9). 

erhalt man das 1-a-Konfidenzintervall fur p durch eine Approximation der Binomialverteilung mit Hilfe der Normalverteilung: 



#-*(i-fV%^+*(i-f)V®^> 



n * v n 

Exakt laftt sich das Konfidenzintervall mit den Verteilungswerten der Binomialverteilung bestimmen. Dafur muft zum Beispiel fur eine untere 
Vertrauensgrenze ein Parameter/^ fur die Binomialverteilung bestimmt werden, das so klein ist, daft die Wahrscheinlichkeit aus einer 
Binomialverteilung mit den Parametern n undp u gerade x Oder mehrTrefferzu erhalten hochstens die eingeraumte Irrtumswahrscheinlichkeit ist. 

Fur eine Alternative zu diesem Verfahren ist derZusammenhang der Binomialverteilung mit der Betaverteilung nutzlich. Eine untere 
Vertrauensgrenze furp u liefert das a-Quantil der Betaverteilung mit den Parametern x und n-x + 1. Eine obere Vertrauensgrenze liefert das 1 -a- 
Quantil der Betaverteilung mit den Parametern x + 1 und n -x. Dabei handelt es sich nicht urn zwei verschiedene Methoden, sondern nur urn 
zwei verschiedene Suchverfahren nach einem geeigneten Parameter fur die Binomialverteilung, so dass jeweils der einseitige Test fur den 
Parameter der Binomialverteilung nicht zu Ablehnung fuhrt. Weil Quantile der Betaverteilung durch eine Nullstellensuche in der unvollstandigen 
Beta-Funktion bestimmt werden konnen, ist die Suchstrategie uber die Betaverteilung schon dann leicht zuganglich, wenn man einen 
numerischen Zugang zur unvollstandigen Betafunktion und ein allgemeines Verfahren zur Nullstellensuche zu Verfugung hat. Dies kann ein 
Vorteil gegenuber der Suche nach einem geeigneten Parameter der Binonialverteilung sein, fur den das beobachtete x gerade nicht zur 
Ablehnung fuhrt. 

Die exakte Methode uber die Suche nach einem geeigneten Parameter der Binomialverteilung so, dass ein einseitiger Test fur die Beobachtung 
x gerade nicht zu Ablehung fuhrt, ist nur fur die Suche nach einer einseitigen Vertrauensgrenze unverfalscht. Ein unverfalschtes zweiseitiges 
Konfidenzintervall fur den Parameter/? der Binomialverteilung muss aus einem unverfalschten zweiseitigen Test fur den Parameter/? abgeleitet 
werden. Weil die Binomialverteilung aufter fur/? = 1/2 nicht symmetrisch ist, geniigt es nicht die Irrtumswahrscheinlichkeit a zu gleichen Teilen 
auf die beiden Enden der Verteilung aufeuteilen. 

Modell ohne Zurucklegen 

Bei einem Urnenmodell ohne Zurucklegen ist X hypergeometrisch verteilt. Falls die Bedingungen 

P(l-P) ' 

•n> 100 
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• n/N < 0,05 

erfullt sind, ist die Approximation der hypergeomet rise hen Verteilung durch die Normalverteilung brauchbar und man erhalt das approximative (1 - 
a)-Konfidenzintervall fur 



r-zCi-fjy^y&P+zCi-fjy^y^ 



7.2. 



Hypothesentests 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 7 vom Inhaltsverzeichnis 



EinfLihrung an Hand eines Beispiels mit Wurstglasern 

Die Firma HappyWurscht stellt Wurstwaren her. Sie ist vor allem fur ihre delikate Leberwurst in 250g-Glasern bekannt. Diese werden durch eine 
Fullanlage mit der noch heiften, flussigen Masse befullt. Urn Beanstandungen bezuglich der Fullmenge zu vermeiden, fiillt man etwas mehr 
Masse als 250 g ein. Die Fullmenge schwankt immer leicht, aber es wird ein durchschnittliches Fullgewicht von 260g angestrebt. Die 
Qualitatssicherung soil die Einhaltung dieser Durchschnittsmenge uberprufen. 



Uberlegung zur Verteilung der Stich probe 

Es ist aber das durchschnittliche Fullgewicht eines Wurstglases unbekannt. Bekannt ist in diesem Beispiel lediglich, daft das Fullgewicht 
normalverteilt ist mit einerVarianz o 2 = 64 [g 2 ]. 

Wie konnte man nun den Durchschnitt ermitteln? Man konnte eine Stichprobe mit z.B. n = 16 Beobachtungen Ziehen und versuchen, aus dem 
arithmetischen Mittel x auf das durchschnittliche Fullgewicht der Grundgesamtheit zu schlieften. 

Wir betrachten nun das Fullgewicht eines Wurstglases. Wir bezeichnen es als Zufallsvariable X Es soil gepruft werden, ob durchschnittlich 
260g in einem Glas sind, d.h. ob EX= 260 ist. 

Betragt nun tatsachlich der wahre durchschnittliche Absatz der Grundgesamtheit uq = 260, kann man bei einer genugend groften Stichprobe 
vermuten, daft x in der Nahe von uq liegen mtiftte. Meistens wird x in der Nahe von uq liegen, da aber x die Realisation einer Zufallsvariablen 
ist, kann in sehr wenigen Fallen x auch extrem weit von uq weg liegen, so daft man dann u verkehrt einschatzt. 

Man konnte aber ein Intervall urn uq bestimmen, in dem bei Vorliegen von uq z.B. 95% 
aller moglichen ^"-Werte liegen, also 

P(x u < X < x„) = 0, 95 . 

Es wird dann eine konkrete Stichprobe genommen. Fallt x nicht in dieses Intervall 
\x u " T l » ist X zu weit ^n uq weg. Man geht dann davon aus, dass uq ? 260 ist. 
Damit man dieses Intervall berechnen kann, mussen Informationen uber die Verteilung 
von x verfugbar sein. 

Ablauf eines Hypothesentests 

Feststellung der Verteilung des Merkmals in der Grundgesamtheit 

Die Zufallsvariable X Fullgewicht eines Wurstglases ist normalverteilt mit einem 
unbekannten Erwartungswert u und der bekannten Varianz varX= o 2 = 64. Man 
interessiert sich fur den Parameter u. 

Aufstellen der Nullhypothese 

Man stellt die Nullhypothese H : u = Uq = 260 auf, d.h. man behauptet, das wahre unbekannte durchschnittliche Fullgewicht in der 
Grundgesamtheit betrage uq = 260. 

Festlegen des Nichtablehnungsbereiches fur H 



0,025 , 


^ E_ 


\ 0,95 
\ 0,025 




£3 
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Zur Uberprufung der Hypothese soil eine Stichprobe im Umfang von n = 16 gezogen werden, die zu einer sog. PrufgroGe x zusammengefasst 
wird. 

Der Stichprobendurchschnitt x ist selbst eine Zufallsvariable und ist als lineare Transformation von Xwiederum normalverteilt und zwar mit den 
Parametern 

EX = fi und var X = 
Bei Gultigkeit von H ist also 

X -> N(w ^) , 

ft 

hier 

64 
X -h. A r (260; — = 4) . 

Nun wird der Bereich fur x festgelegt, in dem die Nullhypothese nicht abgelehnt wird, 
der Nichtablehnungsbereich (NAB) [jp u ; Xo\- Fallt die Prufgrofle x in diesem Bereich, 
wird Hq nicht abgelehnt. Es soil sein 



P(x u < X < x ) = 0, 95 = 1 - a . 



Wir nennen a das Signifikanzniveau oder den a-Fehler: Das ist die Wahrscheinlichkeit, 
dass die Nullhypothese Hq abgelehnt wird, obwohl uq = 260 der wahre Parameter ist. 

Bestimmung von [^ u ; XoY 

Standardisiert man mit 



konnen wir analog zu oben 

P{Zu<Z <z ) =0,95 

schreiben. Es ergibt als Intervall fur Z: 

fax,] = [z(a/2);z(l-a/2);] 

= [-z(l- a /2y,z{l-a/2y,] 

= [-z(0,975);z{0,975)] 

= [-1,96; 1,96] 

Es ist nun aber 



X u = Ho- Z{1 - a/2)— = und x 



IM) + z (l-a/2) 



o 



so dass hier der Nichtablehnungsbereich fur x 

Lt. ■ r_l = \2m - 1 _ Qfi . 2: 2fifl + 1 _9fi - 21 



a/2 

0,025 




NAB 


l-a 

V 0,95 

V a/2 
\ 0,025 


*u 


\h 


K * 


<p 
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= [260 -3, 92; 260 + 3, 92] 
= [256, 08; 263, 92] 



ist. 



Wenn |j tatsachlich 260 ist, wurde x in 5 % aller Stichproben in den 
Ablehnungsbereich 

(-oo; 256,08] V[263,92;oo) 

fallen. 

Stichprobe erheben 

Nach der Festlegung des Nichtablehnungsbereichs wird eine 
Stichprobe genommen. Es wurde hier der Inhalt von 16 Glasern 
gewogen. Es ergab sich die Urliste 

268 252 254 252 251 245 257 275 268 270 2 



254 




0,025 
a/ 2 



266 



mm 



Gewichtx 






Nichtablehnungsbereich der Nullhypothese fur x 

53 250 266 265 250 267 



Es ist dann 

x = Tg(268 + 252 + ... + 267) =—(4144) = 259 

Entscheidung treffen 

Wir fallen nun die Entscheidung: Da x = 259 im Nichtablehnungsbereich liegt, wird Hq nicht abgelehnt. Es wird davon ausgegangen, dass die 

Maschine die Glaser korrekt befullt. 

Eine aquivalente Vorgehensweise ist, man bestimmt zunachst die standardisierte Prufgrofle z: 

x-fio 259-260 -i 



z = 



-fe 2 



= —=-0,5. 



7" v^e 

Der Nichtablehnungsbereich fur Z ist [-1,96; 1,96]. Da z in den Nichtablehnungsbereich fallt, wird Hq nicht abgelehnt. 

Beide Vorgehensweisen liefern das gleiche Ergebnis. 

Punkt- und Bereichshypothesen 

In obigen Beispiel wurde fur das wahre u nur ein bestimmter Punkt getestet: Hq: u = Uq, also handelt es sich um eine Punkthypothese. Es 
konnte aber sein, dass der Hersteller einem GroGabnehmer versichert hat, dass das durchschnittliche Fullgewicht mindestens 260 g betragt. Es 
wird also hier genugen, zu priifen, ob der Mindestwert erreicht wird. Es ist aber kein Problem, wenn die durchschnittliche Fullmenge gro&er als 
260 ist. 



IV/I-,,-. o + ollt -,lo/-> olo Arkalfrk.nnfho 



. .f- U_- .. ^> .._ - Ofin \M\rri ri\a 
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Prufgrofle ^ geringfugig kleiner als 260, kann das eine 
Zufallsschwankung sein. Aber wird x zu klein, muss Hq abgelehnt 
werden. Da hier nur der Bereich links von uq kritisch fur dieAblehnung 
ist, wird das gesamte a links auf dem Zahlenstrahl plaziert, der 
kritische Wert fur z ist also z(a) = -z(1-a). Fallt z in den 
Ablehnungsbereich (-°°; -z(1-a)], wird H abgelehnt. Man gent dann 
davon aus, dass u kleiner als uq sein muss, dass also die Befullung 
nicht ordnungsgemafe ist. Der kritische Wert fur x ist hier 







%1- 



m - z{1 - a) .— 



also 



X!- a = 260- 1,65 



v/l6 



= 256,7 




Wenn die Stichprobe ein Durchschnittsgewicht von wenigerals 256,7g ergibt, wird die Lieferung beanstandet. 
Entsprechend erhalt man unter der Hypothese Hq: u < uq fur die PrufgroGe z den Ablehnungsbereich [z(1-a); °°) bzw 

Xi-<* = fJ>o + z{l -a) 



yjn 



F4 



VU 



Fehler und Varianzen 
Fehlerarten 

Warum wird der a-Fehler als Fehler bezeichnet? Hier wollen wir uns zunachst mal uberlegen, welche Fehler bei der Entscheidung uberhaupt 
gemacht werden konnen? 

1 . H ist wahr, die PrufgroGe fallt aber in den Ablehnungsbereich 
(in a * 100% aller Stichproben). Hier wiirde man Hq 
irrtumlicherweise ablehnen, obwohl Hq wahr ist: a-Fehler oder 
Fehler 1. Art. In unserem Beispiel wiirde also die Lieferung 
moglicherweise zuruckgewiesen werden, obwohl die Glaser 
korrekt befullt worden sind. 



1. Hq ist falsch, die PrufgroGe fallt aber in den 

Nichtablehnungsbereich. In Wirklichkeit ist u = ui , z.B. ui = 
255 g. Jetzt ist bei unveranderter Varianz in Wahrheit der 
Stichprobendurchschnitt x verteilt wie 



250 




256,7 



Vermischung der hypothetischen und tatsachlichen Verteilung 



N{ii 1 ;—) = N{2hh;A) 

Unter dieser Verteilung betragt die Wahrscheinlichkeit, dass Hq 
(falschlicherweise) nicht abgelehnt wird, 

P(X > 256,7) = 1 - * i (256,7|255;4) , 

was sich einfach berechnen lasst als 

1 - **( 256, 7 2 ~ 255 ) = 1 - $*(0,85) = 0, 1977. 

Man wiirde also mit fast 20%iger Wahrscheinlichkeit irrtumlicherweise die Lieferung akzeptieren. Dieser Fehler ist der p-Fehler oder Fehler 2. 
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Operationscharakteristikzur Hypothese: |j < 260 



Art. 

Wenn in Wahrheit M = M2 = 252 ist, betragt der (3-Fehler 

P(X > 256,7) = 1 - **(256,7|252;4) = 
l-^( 256 ' 7 2 " 252 ) = l-*,(2, 35) =0,0094. 

Hier ist die Wahrscheinlichkei einer irrtumlichen Ablehnung schon sehr klein 
Der (3-Fehler hangt also von |j-| ab. Man kann den (3-Fehler in 
Abhangigkeit von |j-| als Funktion darstellen: |3 = f ( M 1 ) - Diese Funktion 
nennt man Operationscharakteristik. Der Wert 1 - (3 ist dagegen die 
Wahrscheinlichkeit, dass Hq abgelehnt wird, wenn |j-| der wahre 
Parameter ist. Man sieht an der Grafik, dass 1 - (3 fur |j = 260 gerade 
0,05 ist. Das ist naturlich die Wahrscheinlichkeit, dass H (hier 

falschlicherweise) abgelehnt wird, wenn 260 tatsachlich der wahre 
Parameter ist. 

Urn die Wahrscheinlichkeit fur eine falsche Entscheidung zu 
reduzieren, ist es wunschenswert, moglichst schnell in den Bereich (3 
« zu kommen. U. U. hilft eine Erhohung des Stichprobenumfangs. 

Eine Hypothese, die nicht abgelehnt ist, gilt nicht automatisch als 
angenommen, denn der (3-Fehler ist i.a. unbekannt. 

Wenn ein Test die Wahrscheinlichkeit der Annahme falscher 
Nullhypothesen moglichst reduziert, nennt man ihn trennscharf. 

Breite des Nichtablehnungsbereichs 

Es soil nun wieder die Punkthypothese Hq: u = Uq betrachtet werden. Es ergab sich hier fur x der Nichtablehnungsbereich [256,08; 263,92] mit 

einer Breite 7,84 g. 

Anderung des Signifikanzniveaus 

Welcher NAB ergibt sich fur a = 0,01? Wir errechnen das (1 - a/2)-Quantil als 

a = 0, 01 -> a/2 = 0, 005 -» 1 - a/2 = 0, 995 -> z(0, 995) = 2, 58 

und erhalten den Nichtablehnungsbereich fur ^" als 

[260 - z(0, 995) ■ 2; 260 + z(0, 995) ■ 2] 
= [260 -2, 58 -2; 260 + 2, 58 -2] 
= [260 -5, 16; 260 + 5, 16] 
= [254, 84; 265, 16] 

Hier ist der Nichtablehnungsbereich breiter als fur a = 0,05: Hq wird nur in 1 % aller Stichproben falschlicherweise abgelehnt. Hier hatte die 

Lieferfirma einen Vorteil. 

Welcher NAB ergibt sich fur a = 0,1? 

[260-^(0,95) -2; 260 I 2(0,95) -2] 
= [260 -1,65 -2; 260 I 1,65-2] 
= [260 -2, 30; 260 I 2,30] 
= [257, 70; 262, 30] 

Hier ist der Nichtablehnungsbereich schmaler, Hq wird in 10% aller Stichproben falschlicherweise abgelehnt. 
Anderung derVarianz 
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Was passiert, wenn die Varianz o z = 256 ist (a = 0,05)? Man erhalt hier fur die Punkthypothese Hq: u = Uq = 260 den NAB fur % 

[260 -1,96-^f; 260 +1,96 
= [260 -1,96 -4; 260 + 1,96 -4] 
= [260 -7, 84; 260 I 7,84] 
= [252, 16; 267,84] 

Die Breite des Nichtablehnungsbereichs ist hier 15,68g. 

Fur H; : u > Uq ergibt sich dann entsprechend als kritischer Wert 

260-1,65-4 = 253,4. 

Die Grafik zeigt den Fall der Bereichshypothese mit einer Varianz von 16: Durch die grofte Varianz sind die Normalverteilungskurven sehr flach 
und durchmischen sich stark. Der Betafehler bei u-| = 255 ist sehr graft. Eine vernunftige Kontrolle derAbfullmaschine ist nicht mehr moglich. 

Der Nichtablehnungsbereich wird mit wachsender Varianz breiter, der 
Test verliert an Trennscharfe. 

Anderung des Stichprobenumfangs 

Was passiert, wenn der Stichprobenumfang jetzt 64 betragt (a = 0,05; 
a 2 = 64)? 

[260-1, 96-y|;260+l, 96-^/1] 

= [260 - 1, 96 1; 260 + 1,96-1] 
= [260 -1,96; 260 + 1,96] 
= [258, 04; 261, 96] 

Hier hat der Nichtablehnungsbereich eine Breite von 3,92, denn durch 
den groftereren Stichprobenumfang hat sich die Varianz von x 
verringert. Der NAB schrumpft bei steigendem Stichprobenumfang, 
der Test wird trennscharfer. 

Mindest erforderlicher Stichprobenumfang 

Wie graft muft die Stichprobe mindestens sein, damit die Breite des 
NAB fur a = 0,05 hochstens 10 betragt? 

Die Breite des NAB ist ja definiert durch 

2 .*<l-a/2).-^ 

Es soil also hier sein 

2- 1,96- -^< 10 

Die Auflosung der Ungleichung nach v/ft ergibt dann 

64 
\fn > 2 ■ 1, 96 ■ — = 25, 088 ^(v^) 2 = 629,41 

Da wir nur ganze Wurstglaser analysieren konnen, brauchen wir einen Stichprobenumfang von mindestens 630 Glasern. 

Kann die Wurst mit dem Glas zusammen gewogen werden, stellt diese hohe Zahl kein Problem dar. Geht durch so eine Stichprobe allerdings 
die Zerstorung der Ware mit einher, etwa die lebensmitteltechnische Untersuchung einer Konservendose, muss man einen Kompromiss 
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zwischen mangelnder Trennscharfe und Zerstorung der Ware finden. 



7.2.1 . Verteilungsgebundene Tests 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 7 vom Inhaltsverzeichnis 



7.2.1 .1 . Test auf Erwartungswert 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 7 vom Inhaltsverzeichnis 



Erwartungswert 

1. Bekannte Verteilung und Varianz 

lm einfuhrenden Beispiel war die Art der Verteilung des Merkmals in der Grundgesamtheit bekannt, namentlich eine Normalverteilung mit 
bekannter Varianz. Die PrufgroGe 

_ X - jUp 

Z ~ _*_ 

ist dann unter der Nulhypothese u = Uq standardnormalverteilt. Wir erhalten die Entscheidungsregeln fur eine gewahlte Irrtumswahrscheinlichkeit 
a 

• Ho: u = uq wird abgelehnt, falls z < - z(1-a/2) oder z > z(1-a/2) ist. 

• Ho: u ^ uo wird abgelehnt, falls z > z(1-a) ist. 

• Ho: u ^ Uq wird abgelehnt, falls z < - z(1-a) ist. 

2. Bekannte Verteilung und unbekannte Varianz 

Haufig wird neben dem Erwartungswert die Varianz ebenfalls nicht bekannt sein, so dass man statt der Varianz in der Grundgesamtheit die 
Schatzung 



a» = ^=-J_\j,,. ,- 



7 Ete - ■ 
1 i=i 



verwendet. Wir erhalten nun bei normalwsrteilter Grundgesamtheit statt z die Prufgrofie 

i ' 

die t-verteilt mit n-1 Freiheitsgraden ist. 

Die t-Verteilung hat eine ahnliche Form wie die Normalverteilung. In der hier betrachteten Art (zentrale t-Verteilung) ist sie ebenfalls symmetrisch 
bezuglich der Null. Da sie verschiedene Freiheitsgrade hat, ist sie nur fur ausgewahlte Quantile tabelliert. Es ist t(p;k) das p-Quantil dert- 
Verteilung mit k Freiheitsgraden. 

Es gilt beispielsweise fur die Zufallsavariable t mit 5 Freiheitsgraden: 

P(t < 3,365) = 0,99bzw t(0,99;5) = 3,365. 

Wir erhalten die Entscheidungsregeln 

• H: u = u wird abgelehnt, falls t < - t(1-a/2; n - 1) oder t > t(1-a/2; n-1) ist. 

• H: u <Uq wird abgelehnt, falls t > t(1-a; n-1) ist. 

• H: u ^ Uq wird abgelehnt, falls t < - t(1-a n - 1) ist. 

• Ist n > 30, konnen die Quantile der t-Verteilung durch die entsprechenden Quantile der Normalverteilung ersetzt werden. 
3. Unbekannte Verteilung und bekannte Varianz 

1st die Verteilung des Merkmals Xunbekannt, aber die Varianz varX bekannt, verwendet man bei einem n > 30 die standardnormalverteilte 
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PrufgroGe 

_ X- JJ.Q 

Wir erhalten die Entscheidungsregeln analog zu 1. 

4. Unbekannte Verteilung und unbekannte Varianz 

Sind Verteilung und Varianz des Merkmals Xin der Grundgesamtheit unbekannt, verwendet man fur n > 50 die standardnormalverteilte Prufgrofte 



z = 



s 



Wirverwenden die Entscheidungsregeln analog zu 1. 



« hoch zum Anfang vom Inhaltsverzeichnis 

7.2.1 .2. Test auf Anteilswert 

« hoch zum Kapitel 7 vom Inhaltsverzeichnis 

Anteilswert einer dichotomen Grundgesamtheit 

Die Verteilung des Merkmals X einer dichotomen Grundgesamtheit lasst sich durch das Urnenmodell beschreiben. Man mochte den Anteilswert 
9, also den Anteil der Kugeln erster Sorte in der Urne bestimmen. Der Anteilswert wird geschatzt durch 

% x 

= p= -, 
n 

wobei x die Zahl der Kugeln erster Sorte in der Stichprobe ist. Bei einem Urnenmodell mit Zurucklegen ist Xbinomialverteilt. 
Falls 

9 

n > 



O-(l-O) 

konnen wir die PrufgroGe verwenden 

x zb 0,5 — n ■ 8q 



z = 



y/n-9(l-8) 



Hq: 9 = 9q wird abgelehnt, falls 



z = . < -2(1 - a/2) 

y/n-0-(l-0) 

(wenn die Prufgrofle z < ist) oder 

^ x Oi5 -„.g 0> 

(wenn die Prufgrofle z > ist) errechnet wird. 
• H : 9 <9q wird abgelehnt, falls 

x-Q^y-n-On 

z > z = f > z{\ - a) 

y/n- 0.(1-0) 

ist. 
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H : 9 > 0q wird abgelehnt, falls 



x I 0,5 -n-Qft 
z = f < —zll — a) 



ist. 

1st n zu klein, kann der Ablehnungsbereich mit Hilfe der F-Verteilung exakt bestimmt werden oder mit dem Prinzip des konservativen Testens 
festgelegt werden. 



7.2.1 .3. Test auf Varianz 

Test auf Varianz 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 7 vom Inhaltsverzeichnis 



Herleitung der Priifgrofie Betrachten wir eine normal verteilte Grundgesamtheit. Die Schatzung fur die Varianz ist hier 

1 " 

-,2 _ Jl *~ 



a = 3 = — 
n 



1 i=l 



Wir wollen nun eine passende PrufgroGe fur einen Varianztest herleiten. Seien x$ '. i = 1 . . . , 71 unabhangige, normalverteilte 
Zufallsgroften mit Mittelwert \i und Varianz a 2 . Dann sind die Groften (jc,--h)/o unabhangige, standardnormalverteilte Zufallsvariablen und die 
Summe der Quadrate ist x 2 -verteilt mit n Freiheitsgraden: 

h ° 2 ' 

Schatzt man 
fi — X 

geht ein Freiheitsgrad verloren. 

i-1 ** 

ist x 2 -verteilt mit n-1 Freiheitsgraden. Wir wollen nun diese Summe mit S 2 verquicken, urn eine Prufgrofle fur diesen Test zu erhalten. Es ist 
dann 

A ^>-1) _ S 2 >-1) 
f- a 2 a 2 

2 = 1 

ebenfalls x 2 -verteilt mit n-1 Freiheitsgraden. Unter der Nullhypothese Hq: o 2 = o 2 q ist dann 

y SMtt-1) 

ebenfalls verteilt wie oben. 

Wir wollen nun fur H : o 2 = o 2 q den Nichtablehnungsbereich fur den Test angeben. Die Hypothese wird nicht abgelehnt, wenn die Prufgrofle y in 
das Intervall 



fallt, wobei x 2 (p;k) das p-Quantil der x 2 -Vertei lung mit k Freiheitsgraden ist. 
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Die Nichtablehnungsbereiche fur die Bereichshypothesen werden analog zu der Vorgehensweise bei Erwartungswerden festgelegt: 
Bei der Mindesthypothese }{ f • q- 2 > q- 2 wird die Hypothese abgelehnt, wenn die PrufgroGe 

7<X 2 (a;«-l)ist. 
Bei der Hochsthypothese JJ^ ; (j~ < (j~ wird die Hypothese abgelehnt, wenn die PrufgroGe 

7>X 2 (l-a;/7-l)ist. 

Beispiel fur eine Punkthypothese 

Ein grower Blumenzwiebelzuchter hat eine neue Sorte von Lilien gezuchtet. Die Zwiebeln sollen im Verkauf in verschiedenen Groftenklassen 
angeboten werden. Um das Angebot planen zu konnen, benotigt der Zuchter eine Information iiber die Varianz der Zwiebelgrofte. Es wurden 25 
Zwiebeln zufallig ausgewahlt und gemessen. Man erhielt die Durchmesser (cm) 



10 9 7 6 10 



6797 10 9677 



10 10 7 7 



Es soil die Hypothese uberpruft werden, dass die Varianz der ZwiebelgroGe 3 cm 2 betragt (a = 0,05). 
Die Nullhypothese lautet f{ : & 2 — g? = 3 
Nichtablehnungsbereich fur die Prufgrofte y ist 

[x 2 {f;«-l);/(l-f ;«-!)] = 



[X 2 (0,025;24);x 2 (0,975;24)] = [12,40;39,36]. 



42 



Es ergab sich fur die Stichprobe x = S unc ' .S = = 1 75- ^' e PrufsroUe errechnet sich als 

24 



y = 



S 2 -(n- 1) 



1 ' 75 - 24 = 14. 



Die Hypothese kann nicht abgelehnt werden. 
Beispiel fur eine Bereichshypothese 

An einerAbfullanlage werden Tagesdosen fur ein sehr teures flussiges Medikament in Plastikschalchen eingebracht. Da das Medikament 
hochwirksam ist, soil die Abweichung der Fullmenge vom Mittelwert moglichst wenig schwanken. Man weift, dass die Fullmenge normal vertei It 

ist. Zur Kontrolle soil die Hypothese getestet werden, dass die Varianz hochstens 0,01 ml 2 betragt. Eine Stichprobe von 20 Schalchen ergab 
den Mittelwert 0,5 und die Varianz 0,014. 

Zu testen ist // : a 2 < a 2 . 



Die Prufgrofle fur H ist Y = 



S*-(n-l) 



■'ii 



Die Hypothese wird abgelehnt, wenn y > x 2 (l - a;n - 1) = x 2 (0,9; 19) = 27,20 ist. 
Die Stichprobe ergab 

0,014-19 



y = 



= 26,6 



0,01 

Die Hypothese wird nicht abgelehnt. Man geht davon aus, dass die Varianz der Fullmenge sich nicht verandert hat. 

Vergleich zweier Varianzen 

Wir haben es mit zwei verschiedenen Grundgesamtheiten zu tun. Wir interessieren uns dafur, ob die Varianzen dieser beiden 
Grundgesamtheiten gleich sind. Beide Merkmale dieser Grundgesamtheiten sollen normalverteilt sein. 
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Herleitung der Prufgrofle 

Zu prufen ist also die Hypothese: Hq: q-i 2 = O2 2 . 

Geschatzt werden beide Varianzen wieder mit der Stichprobenvarianz 

s 2 =— — -JT(x t -x) 2 . 

n L 1=1 

Es soil nun daraus eine PrufgroGe konstruiert werden. Wir wissen bereits, dass der Quotient 



y = t. 



(Xj-Xf 



X 2 -verteilt mit n-1 Freiheitsgraden ist. Eine Moglichkeit, zwei solche Zufallsvariablen zu verquicken, ist die F-Verteilung. Es ist namlich der 
Quotient 



r _ ni-1 (wi-l)ffj; 



F-verteilt mit n-j - 1 und n2 - 1 Freiheitsgraden. Wir mCissen nun noch unsere Stichprobenvarianzen einpflegen und wir sehen, dass ja in Zahler 
und Nenner die Stichprobenvarianzen S-| 2 und S2 2 schon dastehen. Also erhalten wir 
S? 

Wir wollen diesen Quotienten nun mit der Nullhypothese in Verbindung bringen. Die Hypothese 

2 
TJq ; (jf = (ji lasst sich auch schreiben als J/ fl ; — ^ = 1 und es ist dann der Quotient der PrufgroGe unter H 



c2 

f = ^ - 1 

Wenn die Nullhypothese wahr ist, sollte f nicht zu graft sein, aber auch nicht zu klein, weil sonst die Stichprobenvarianzen zu unterschiedlich 
waren. Hq wird also nicht abgelehnt, wenn die Stichprobe fin den „mittleren" Bereich 

[fi^]^ - l } n 2 - 1)] f{l - ^^ - l } n 2 - 1)] 

fallt, wobei f(p;k-j;k2) das p-Quantil der F-Verteilung mit k-| und k2 Freiheitsgraden ist. 
Bereichhypothesen werden entsprechend aufgefasst: 

Hq * <j\ K oi '3 sst sich auch schreiben als // ; — ^ < 1. 

DieserTest wird abgelehnt, wenn 



/>/(l--; ni -l;n 2 -l> 



wobei sich f wie oben berechnet. 



PDFmyURL.com 



a? 

Entsprechend wird f{~ ; — ^ > 1 abgelehnt, wenn 



/</(f;*i-i;«a-i} 

Beispiel 

Bert und Berta haben im Fach Analysis ein Tutorium gehalten. Die Zeit, die die n-| bzw. n2 Studierenden fur eine typische Klausuraufgabe 
benotigten, wurde festgehalten: 



Tutorium von Bert: 8344 10 929 
Tutorium von Berta: 5 4 7 6 4 



Beide Gruppen erzielten eine durchschnittliche Bearbeitungsdauer von 6 min. 1st aber auch die Varianz beider Gruppenleistungen gleich? 
Wir wollen also nun bei einem Signifikanzniveau 0,05 die Nullhypothese testen, dass die Varianzen gleich sind. 
Der Nichtablehnungsbereich fur diesen Test ist 

[/<f;Tn - l;n a - 1);/(1 - |;m - l;n a - 1)] 
= [/(0,025;8;5);/(0,975;8;5)] 
= [0,21; 6, 76] 

wobei sich 

/(0,025; 8 ; 5 ) = /(09 ; 5 , 5;8r i ^ = 0,21 

errechnet. Wir erhalten zunachst die Stichprobenvarianzen 



|((8 - 6)*+ <3 - 6)* + (4 - 6) 2 + .. + (9 - 6) 2 






und analog dazu 
2 



^ = 5,2- 

Die Prufgrofle errechnet sich nun als 



Sl 1= 9 



1 = 1,73 



S\ ' 5,2 

Sie fallt in den Nichtablehnungsbereich und man kann die Hypothese nicht ablehnen. 



7.2.2. 



Verteilungsfreie Tests 



« hoch zumAnfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 7 vom Inhaltsverzeichnis 



7.2.2.1. 


Prufung des Zusammenhangs zweier 
Merkmale 


« hoch zumAnfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 7 vom Inhaltsverzeichnis 



Stochastische Unabhangigkeit 

Die Beobachtungen zweier Merkmale Xund Y liegen als gemeinsame klassierte Haufigkeitsverteilung vor mit n und m Kategorien und den 
dazugehorigen gemeinsamen Haufigkeiten ny (i = 1, ...,n; j = 1, ...,m) vor. Zur Prufung der Hypothese H : „Xund Y sind stochastisch 
unabhangig" verwendet man die Prufgrofle 
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/ 7i i n .\2 



X 7 - 7 * nt.n.j 

i j n 

Es soil jedes > 5 se ' n - Falls diese Forderung nicht gegeben ist, mussen so viele Zeilen und/oder Spalten zusammengefasst werden, 

n ~ 

bis die Vorgabe erfullt ist. 

Die Hypothese, dass Xund Y stochastisch unabhangig sind, wird abgelehnt, wenn x 2 > X 2 - a; (m - 1)(n - 1)) ist, als (l-a)-Quantil der x 2 - 
Verteilung mit (m-1)(n-1) Freiheitsgraden. 

Bemerkung: Dieser Test kann auch fur die Priifung der stochastischen Unabhangigkeit zweier Ereignisse verwendet werden. Man spricht hier 
von einem Vierfelder-Test. 

Korrelation 

Norma Iverteilung beider Merkmale 

Die Merkmale Xund Y sind normalverteilt. Es wird die spezielle Nullhypothese H : p xy = gepruft. Man schatzt den Korrelationskoeffizienten p 
mit dem Korrelationskoeffizienten r nach Bravais-Pearson und verwendet die PrufgroGe 

r 
t = 



H : Pxy = wir "d abgelehnt, falls t < - t(1-a/2; n - 2) oder t > t(1-a/2; n - 2) ist. 



Wird H abgelehnt, geht man davon aus, dass Xund Y korreliert sind. Sie sind dann auch stochastisch abhangig, so dass dieser Test im 
Ablehnungsfall auch die stochastische Unabhangigkeit erfasst. Bei Nichtablehnung konnen die Merkmale trotzdem abhangig sein, denn der 
Korrelationskoeffizient misst bekanntlich nurdie lineare Abhangigkeit. 

Wird Hq: p xy = Po ^ gepruft, hat r eine sog. nichtzentrale Verteilung, die nicht mehr ohne weiteres berechnet werden kann und nur noch 

naherungsweise mit der sog. Fisherschen Transformation angebbar ist. 

Unbekannte Verteilung beider Merkmale 

Die Merkmale Xund Y sind beliebig verteilt. Es wird die spezielle Nullhypothese Hq: p xy = gepruft. Man schatzt den Korrelationskoeffizienten 

p mit dem Rangkorrelationskoeffizienten nach Spearman-Pearson r$p. 

Fur n > 10 verwendet man die Prufgrofle 

t= rsp 



\fe 



,2 
.-■ 1 • 



-2 
Ho: Pxy = wird abgelehnt, falls t < - t(1-a/2; n - 2) oder t > t(1-a/2; n - 2) ist. 

Parameter der linearen Regression 

Ausgegangen wird von der unbekannten Regressionsgeraden 

y = a + |3x + u 
und der Schatzung 

y = a + bx + d . 
Die StorgroGe u ist normalverteilt: 

Die Varianz der Storgrofte o 2 wird geschatzt mit 
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Es ist auch 

E4 2 = (i-r 2 )-E( yi -y) 2 



Steigungskoeffizent p 



a 1 



p wird geschatzt durch b. Unter Hq ist f) — ^ N(j3* z~ )■ 

Verwendet wird die Prufgrofle 
1 — s 

die unter Hq t-verteilt ist mit n-2 Freiheitsgraden. 

• H : (3 = p wird abgelehnt, falls t < - t(1-a/2; n - 2) oder t > t(1-a/2; n - 2) ist. 

• H : (3 < p wil "d abgelehnt, falls t > t(1-a/2; n - 2) ist. 

• H : P > P wird abgelehnt, falls t < - t(1-a/2; n - 2) ist. 

In der Praxis wird meistens Hq: p = getestet. Wird die Hypothese nicht abgelehnt, scheint x unerheblich fur die Erklarung von y zu sein. 

Absolutglied a 

a wird geschatzt durch a. Unter Hq ist 

a ^ A(Qo; E^-^ ) 

Fur den Test verwendet man die Prufgrofle 



8 



Ei{^ - x) 2 



die unter Hq t-verteilt ist mit n-2 Freiheitsgraden. 

• H : a = a wird abgelehnt, falls t < - t(1-a/2; n - 2) oder t > t(1-a/2; n - 2) ist. 

• H : a < a wird abgelehnt, falls t > t(1-a/2; n - 2) ist. 

• H : a > a wird abgelehnt, falls t < - t(1-a/2; n - 2) ist. 

In der Praxis wird meistens Hq: a = getestet. Wird die Hypothese nicht abgelehnt, geht die wahre Regressionsgerade moglicherweise durch 
den Nullpunkt des Koordinatensystems. 



8. Ubungsaufgaben 



: hoch zum Anfang vom Inhaltsverzeichnis 
: hoch zum Kapitel 8 vom Inhaltsverzeichnis 



Kapitel 1 

Aufgabe 1.1 - Mischanlage fur Porzellanfabrik 

Eine Porzellanfabrik erhalt eine neue Mischanlage fur spezielles Steingut. Diese muss eingerichtet und angepasst werden. Man geht davon aus, 
dass die Anlage in hochstens neun Tagen einsatzbereit ist. Wir definieren als Ereignisse 

A: Es dauert mehr als 6 Tage, bis die Anlage einsatzbereit ist. B: Es dauert weniger als 8 Tage, bis die Anlage einsatzbereit ist. 



PDFmyURL.com 



1 . Beschreiben Sie das Komplement zu A. 

2. Beschreiben Sie die Schnittmenge zwischen A und B. 

3. SindAund B disjunkt? 

4. Zeigen Sie, dass [A H B) U (.4 D B) = B ist. 

Aufgabe 1.2 - Einrichtung der Mischanlage 

Wir beziehen uns auf Aufgabe 1.1 Die Werksleitung vermutet fur die Zahl der Tage, die benotigt werden, um die Anlage einzurichten, die 
Wahrscheinlichkeiten, wie in derfolgenden Tabelle angegeben: 



Zahl der Tage 


5 


6 


7 


8 


9 


Wahrscheinlichkeit 


0,05 


0,25 


0,35 


0,25 


0,10 



1. Geben Sie die Wahrscheinlichkeiten fur A und B an. 

2. Geben Sie die Wahrscheinlichkeit fur die Schnittmenge von A und B an. 

3. Geben Sie die Wahrscheinlichkeit fur die Vereinigungsmenge von A und B an. 

4. Jeder unproduktive Tag kostet die Firma 2000 Euro. Mit welcher Wahrscheinlichkeit muss die Firma mit Kosten von hochstens 12.000 
Euro rechnen? 

Aufgabe 1.3 Zustelldienst 

Ein Zustellungsdienst beschaftigt Festangestellte und freie Mitarbeiter. 64% der Mitarbeiter sind fest angestellt. Eine Qualitatsanalyse ergab, 
dass 10% aller Zustellungen beanstandet wurden. Die Wahrscheinlichkeit, dass eine Sendung von einem festangestellten Mitarbeiter 
ausgeliefert wurde und beanstandet wurde, betragt 6%. 

Berta erhalt eine Sendung. Mit welcher Wahrscheinlichkeit 

1. wird die Sendung beanstandet? 

2. stammt die Sendung von einem freien Mitarbeiter? 

3. wird die Sendung beanstandet oder stammt von einem Festangestellten? 

4. wird die Sendung nicht beanstandet oder stammt nicht von einem Festangestellten? 

5. wird die Sendung beanstandet oder stammt nicht von einem Festangestellten? 

6. wird die Sendung beanstandet oder nicht beanstandet? 

7. wird die Sendung beanstandet, stammt aber nicht von einem Festangestellten? 



Aufgabe 1 .4 - 2x Wurfeln 

Sie wurfeln zweimal. 

1. Geben Sie die Ergebnismenge dieses Zufallsvorgangs an. Zweckmaftig ist eine matrixahnliche Anordnung. 

2. Mit welcher Wahrscheinlichkeit erhalten Sie 

1. beim ersten Wurf 1 und beim zweiten Wurf 5? 

2. einen Pasch (2x die gleiche Augenzahl)? 

3. 1 oder 5? 

4. die Augenzahl 8? 

5. mindestens die Augenzahl 7? 



Aufgabe 1 .5 - Miinze 4x werfen 

Eine Miinze wird viermal geworfen. Es ist definiert: Z: Zahl liegt oben. K: Kopf liegt oben. 
1. Stellen Sie die 16-elementige Ergebnismenge zusammen. 
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2. Geben Sie ein Beispiel fur ein Ergebnis, ein Elementarereignis, ein zusammengesetztes Ereignis. 

3. Es sind die Ereignisse definiert: 

A: Es treten zuerst zweimal Kopf, dann zweimal Zahl auf 

B: Es tritt hochstens zweimal Kopf auf 

C:Es tritt mindestens drei mal Zahl auf 

D: Es tritt einmal Kopf auf 

Ermitteln Sie die Wahrscheinlichkeit, dass 

1. A 

2. D 

3. nicht D 

4. B und C 

5. B Oder C 

6. A und C 

7. nicht C und nicht D 

8. nicht Kopf und nicht mindestens 3 mal Zahl 

9. B ohneA 

10. mindestens einmal Zahl 
eintritt. 

Aufgabe 1.6 - Aktiengewinne 

Die Wertpapierabteilung einer Bank verwendet einen neuen speziellen Index zur Bewertung der zukunftigen Ertragsstarke eines Unternehmens. 
Eine erste Analyse ihrerAktienportefeuilles hat ergeben, dass 75% derAktien, deren Unternehmen als ertragsstark eingestuft worden waren, 
Kursgewinne einfahren konnten. Es wurden aber auch mit 30% derAktien als ertragsschwach beurteilter Unternehmen Gewinne erzielt. Zur 
Vermeidung von Risiken setzten sich die Wertpapierfonds aus 80% Aktien als ertragsstark und 20% Aktien als ertragsschwach beurteilter 
Unternehmen zusammen. 

1. Mit welcher Wahrscheinlichkeit kann von einer Aktie ein Kursgewinn erwartet werden? 

2. Wieviel Prozent derAktien mit Kursverlusten stammten tatsachlich von als ertragsschwach beurteilten Unternehmen? 

Aufgabe 1.7 - Heulomat 

Die Auto-Alarmanlage Heulomat heult erfahrungsgemaft bei 90% derAutoknacker, die sich am Auto zu schaffen machen. Leider heult sie auch 
bei 60% aller harmlosen Kollisionen, beispielsweise mit Spaziergangern. Man vermutet, dass insgesamt 80% aller Erschutterungen eines Autos 
harmlos sind. 

1. In wie viel Prozent aller Falle heult die Anlage berechtigterweise? 

2. Wie graft ist die Wahrscheinlichkeit, dass die Anlage bei irgendeiner Erschutterung nicht heult? 

Aufgabe 1 .8 - Zugverspatung 

Das Eisenbahnsystem des Staates Mobilia weist im Prinzip zwei Typen von Zugen auf: Den uberregionalen Schnellzug „Hypercity" und die 
langsamere Regionalbahn „Bummelzug". Der Anteil der Hypercities am Fahrzeugbestand betragt 20%. Man hat herausgefunden, dass 70% aller 
Hypercities verspatet sind, wogegen 80% aller Bummelzuge punktlich ankommen. 

Sie stehen am Bahnhof von Capitalis, der Hauptstadt von Mobilia, und sehen dem Treiben an den Bahnsteigen zu. Eine Lautsprecherdurchsage 
verkundet: „DerZug nach Metropolis fahrt verspatet ein". 

1 . Mit welcher Wahrscheinlichkeit handelt es sich urn 

1. einen Bummelzug? 

2. einen Hypercity ? 

2. Wie graft ist der Anteil der Ziige mit Verspatung? 

Aufgabe 1 .9 - Wand verkratzen mit Mulltonnen 
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In einem Mietshaus wird Dienstags die Mulltonne entleert. Bei 30% der Leerungen stellt Herr Lohlein die Mulltonne raus, bei 20% der Leerungen 
Frau Susemihl und bei 50% aller Leerungen Herr Feinbein. Eines Tages stellt der Vermieterfest, dass die Wand im Flur verschrammt ist. Er 
weift, dass Herr Lohlein beim Mulltonne Tragen mit einer Wahrscheinlichkeit von 7%, Frau Susemihl mit einer Wahrscheinlichkeit von 8% und 
Herr Feinbein mit einer Wahrscheinlichkeit von 5% mit der Tonne an der Wand entlang kratzen. 

1 . Welcher Bewohner ist am „verdachtigsten"? 

2. Mit welcher Wahrscheinlichkeit wird nachsten Dienstag die Wand verkratzt? 

3. Nach jeder Schramme lasst der Vermieter die Wand weiften. Reicht etwa ein Anstrich pro Jahr? 

Aufgabe 1.10 - Kaffeetassen 

Frau Ahorn, Frau Behorn und Frau Zehorn bestellen nacheinander (in der Reihenfolge der Nennung) im Cafe Linde Kaffee. Zur Zeit sind noch 24 
graue Tassen und 12 rosa Tassen heil. Die Tassen werden in der Reihenfolge der Bestellung zufallig ausgegeben. 

1. Wie graft ist die Wahrscheinlichkeit, daft Frau Ahorn eine graue, Frau Behorn und Frau Zehorn eine rosa Tasse erhalten? 

2. Wie graft ist die Wahrscheinlichkeit, daft Frau Zehorn eine rosa Tasse erhalt? 

3. Wie graft ist die Wahrscheinlichkeit, daft mindestens eine Kundin eine graue Tasse erhalt? 

4. Wie graft ist die Wahrscheinlichkeit, daft genau eine Kundin eine rosa Tasse erhalt? 

5. Es betreten 10 Kundinnen das Cafe. Wie graft ist die Wahrscheinlichkeit, daft mindestens 9 Kundinnen eine rosa Tasse erhalten? 
(Ansatz geniigt) 

Aufgabe 1.11 Kondensatoren 

Einem Fertigungslos von 500 Kondensatoren werden funf Kondensatoren zu Priifzwecken entnommen. Aufgrund einer ungenauen Wicklung sind 
100 schadhafte Kondensatoren im Fertigungslos. Mit welcher Wahrscheinlichkeit taucht kein einziger dieser schadhaften Kondensatoren in der 
Probe auf? 

Aufgabe 1.12 - Schraubensortiment 

Einem Heimwerkermarkt werden Schachteln mit Schraubensortimenten geliefert, die jeweils 30 kleine Schrauben, 20 mittlere Schrauben und 10 
grofte Schrauben enthalten. Zu Kontrollzwecken werden den Schachteln Schrauben entnommen. 

1. Es wird 3 Schachteln jeweils eine Schraube entnommen. Wie graft ist die Wahrscheinlichkeit, 

1. dass erst eine kleine, dann eine grofte, dann eine mittlere Schraube resultiert? 

2. dass mindestens eine grofte Schraube resultiert? 

2. Es werden einer Schachte drei Schrauben (o. Z.) entnommen. Wie graft ist die Wahrscheinlichkeit, dass nur kleine und mittlere 
Schrauben gezogen werden? 

Kapitel 2 

Aufgabe 2.1 Miinze 3xwerfen 

Eine Miinze wird dreimal geworfen. 

1. Geben Sie die acht-elementige Ergebnismenge fur den Zufallsvorgang: „Eine Miinze wird dreimal geworfen" an (K: Kopf; Z:. Zahl). 

2. Definiert ist die Zufallsvariable X Anzahl von Kopf bei drei Wiirfen. 

1 . Bestimmen Sie die Wahrscheinlichkeitsfunktion von X 

2. Berechnen Sie den Erwartungswert und die Varianz von X 

3. Der Zufallsvorgang ist die Grundlage fur ein Gliicksspiel. Eine Person zahlt einen Einsatz von 1 Euro. Sie wirft dreimal eine Miinze. Fur 
jeden Kopf erhalt sie 60 Cents. Es sei die Zufallsvariable Y der Nettogewinn. 

1. Geben Sie die Wahrscheinlichkeitsfunktion von Y an. Bestimmen Sie daraus E(Y) und VAR(Y). 

2. Geben Sie Y in Abhangigkeit von X an. 

3. Uberlegen Sie, ob Y eine lineare Transformation von X ist. 

4. Berechnen Sie gegebenenfalls die Parameter von Y mit Hilfe dieser Erkenntnis. 
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Aufgabe 2.2 - Urne mit Kugeln 

In einer Urne befinden sich 3 rote und 7 blaue Kugeln. Der Urne werden 4 Kugeln ohne Zurucklegen entnommen. 

1 . Mit welcher Wahrscheinlichkeit erhalten Sie 

1 . keine rote Kugel? 

2. mindestens 1 rote Kugel? 

3. vier rote Kugeln? 

2. Es sei definiert X Zahl der roten Kugeln bei n=4. 

1. Geben Sie fur X die Wahrscheinlichkeitstabelle und die Verteilungsfunktion an. 

2. Tragen Sie die Verteilungsfunktion in ein Diagramm ein. Hinweis: Es genugt, wenn Sie fur die Ordinate im Nenner 210 stehen 
lassen. 

3. Geben Sie Erwartungswert und Varianz von Xan. 

Aufgabe 2.3 - Buchladen 

Eine Buchhandlung stent vor der Wahl, ein hochwertiges und sehrteures Faksimile einer mittelalterlichen Handschrift anzubieten. Die 
Marketingexperten eines beauftragten Instituts vermuten fur die Verkaufszahlen Xfolgende Warscheinlichkeiten: 



Verkaufszahl x 





1 


2 


3 


4 


5 


mehr als 
5 


Wahrscheinlichkeit 


0,2 


0,3 


0,2 


0,1 


0,1 


0,1 






1. Zeichnen Sie die Verteilungsfunktion. 

2. Bestimmen Sie die Wahrscheinlichkeit, dass 

1. hochstens ein Buch 

2. weniger als zwei Bucher 

3. mindestens vier Bucher 

4. mehr als ein, aber hochstens vier Bucher 
verkauft werden. 

1. Bestimmen Sie die durchschnittliche Zahl von Bucher, die eine Buchhandlung verkaufen konnte, und die Varianz. 

Aufgabe 2.4 - Backerei 

Die Backerei Kornchen hat festgestellt, dass sich die Zahl der taglich verkauften Mischbrote annahernd durch die Zufallsvariable X(in 100) mit 
einer Dichtefunktion 



/(*) = 



f iir < x < 6 
sonst 



beschreiben lasst. 

1. An wie viel Prozent der Tage konnen hochstens 400 Brote verkauft werden? 

2. An wie viel Prozent der Tage konnen mindestens 500 Brote verkauft werden? 

3. An wie viel Prozent der Tage konnen zwischen 400 und 500 Brote verkauft werden? 

4. An wie viel Prozent der Tage konnen genau 600 Brote verkauft werden? 

5. Bestimmen Sie a so, dass f tatsachlich eine Dichtefunktion ist. 

6. Bestimmen Sie analytisch Verteilungsfunktion, Erwartungswert und Varianz von X 

7. Geben Sie den Median der Verteilung an. 

8. Wie viel Brote wurden mindestens an den 20% „besten" Tagen verkauft? 

Aufgabe 2.5 -2xWurfeln 

Sie wurfeln zweimal. Es ist die Zufallsvariable Y definiert als Summe der Augenzahlen der beiden WCirfe. 
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1. Geben Sie Wahrscheinlichkeitstabelle und Verteilungsfunktion von Y an. Erstellen Sie jeweils eine Grafik. 

2. Geben Sie die Wahrscheinlichkeit an, 

1. dass die Summe derAugenzahlen genau 4 betragt. 

2. dass die Summe derAugenzahlen genau 2,5 betragt. 

3. dass die Summe derAugenzahlen mindestens 4 betragt. 

4. dass die Summe derAugenzahlen mehr als 4 betragt. 

5. dass die Summe derAugenzahlen mehr als 9,5 betragt. 

6. dass die Summe derAugenzahlen hochstens 3 betragt. 

7. dass die Summe derAugenzahlen mindestens 4 und hochstens 10 betragt. 

8. dass die Summe derAugenzahlen mindestens 4 oder hochstens 10 betragt. 

9. dass Y mehr als 6 und weniger als 8 betragt. 

3. Bestimmen Sie Erwartungswert und Varianz von Y 

Aufgabe 2.6 - Gemeinsame Wahrscheinlichkeiten 

Die gemeinsamen Wahrscheinlichkeiten derdiskreten Zufallsvariablen Xund y sind in derfolgenden Wahrscheinlichkeitstabelle 
zusammengefasst: 



X\Y 


-2 


-1 





1 


f x x(Xj) 





0,05 


0,05 


0,05 


0,1 




1 





0,1 


0,2 


0,05 




2 








0,2 


0,1 




3 











0,1 




f y(yj) 













1. Bestimmen Sie Verteilung, Erwartungswert und Varianz von Xund Y 

2. Uberprufen Sie, ob Xund Y stochastisch unabhangig sind. 

3. Ermitteln Sie den Korrelationskoeffizienten von Xund Y. 

Aufgabe 2.7 - Rendite zweier Aktien 

Die Studentin Berta mochte das Geld, das sie durch Programmierauftrage verdient hat, in Aktien anlegen. Ihr erscheinen die Newcomer Scheffel 
und Raff am aussichtsreichsten. Sie hat die Wahrscheinlichkeiten fur die Renditen (in Croetos), die die beiden Aktien gemeinsam abwerfen, in 
einer Renditetabelle zusammengefasst: 



Scheffel 


Raff 


Wahrscheinlichkeit 


X 


Y 


f XY 








0,1 





10 


0,1 
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50 


10 


0,2 


50 


30 


0,1 


100 


30 


0,2 


100 


40 


0,3 



1 . Geben Sie die gemeinsame Wahrscheinlichkeitstabelle von X und Y an. 

2. Ermitteln Sie die durchschnittliche Rendite einer Aktie und ihre Varianz. 

3. Ermitteln Sie den Korrelationskoeffizienten zwischen den Renditen. 

4. Berta zahlt ihrem Anlageverwalter jahrlich einmal 10 € und dann von der Rendite 1%. Wieviel muss sie ihrem Anlageverwalter jahrlich im 
Durchschnitt zahlen, wenn sie Scheffel und Raff kaufen wurde? 

Kapitel 3 

Aufgabe 3.1 - Abnahmekontrolle von Elektronik 

Bei einer sehr groften Lieferung von hochwertigen elektronischen Bauteilen wird ein Ausschussanteil von 5% als akzeptabel angesehen. Bei der 
Abnahmekontrolle werden 15 Stuck zufallig entnommen. Falls hochstens ein fehlerhaftes Stuck auftritt, wird die Lieferung angenommen. 

1. Bestimmen Sie die Wahrscheinlichkeit, 

1. dass die Lieferung angenommen wird, wenn tatsachlich 5% Ausschuss vorliegen. 

2. dass die Lieferung irrtumlicherweise abgelehnt wird, wenn tatsachlich 3% Ausschuss vorliegen. 

3. dass die Lieferung irrtumlicherweise angenommen wird, wenn tatsachlich 10% Ausschuss vorliegen. 

2. Wie graft muss die Stichprobe mindestens sein, damit die Wahrscheinlichkeit fur eine irrtumliche Annahme der Lieferung bei 10% 
Ausschuss hochstens 10% betragt? Verwenden Sie dazu die Binomialverteilungstabelle. 

3. Oft vermeidet man die Abnahmeregel, dass eine Lieferung nur angenommen wird, wenn kein fehlerhaftes Stuck auftritt, weil man diese 
Regel furzu streng halt. Beurteilen Sie diese Ansicht. 

Aufgabe 3.2 - Bank nach 18 Uhr 

Die Zahl der Kunden, die nach 18 Uhr wahrend einer Stunde einen Bankschalter in einer Bankfiliale aufsuchen, ist poissonverteilt mit A = 10. 

1. Wie viele Kunden suchen stundlich im Durchschnitt einen Bankschalter auf? 

2. Wie graft ist der Anteil der Stunden, in denen hochstens drei Kunden an einen Schalter kommen? 

3. Wie graft ist der Anteil der Stunden, in denen mindestens zwei Kunden an einen Schalter kommen? 

Aufgabe 3.3 - LKW-Versicherung 

Die Zahl der Versicherungsfalle, die einer gewerblichen Haftpflichtversicherung durch einen LKW entstehen, ist annahernd poissonverteilt mit 
dem Parameter A = 2,5. 

1. Bei wie viel Prozent der LKWs muss die Versicherung in einem Jahr keinen Schadensersatz leisten? 

2. Wie viel Prozent der LKWs verursachen mindestens drei Versicherungsleistungen? 

3. Eine Firma betreibt fur just in time Lieferungen drei LKWs. Verursacht keiner der LKWs Versicherungsleistungen, bekommt die Firma 
2000 Euro gutgeschrieben, falls doch, andert sich finanziell nichts fur die Firma. Ist das Angebot der Versicherung Ihrer Meinung nach 
attraktivfur die Firma? 



Aufgabe 3.4 - Batterienfunktion 

Fur die Tauglichkeitsprufung eines MP3-Players wurde gepruft, wie lange man ihn mit einem Batteriensatz spielen kann. Es stellte sich heraus, 
dass die Funktionsdauer eines Batteriensatzes annahernd normalverteilt ist mit dem Erwartungswert von 200 Minuten und einer 
Standardabweichung von 20 Minuten. 
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1. Bestimmen Sie die Wahrscheinlichkeit, dass ein MP3-Player mit einem Batteriensatz hochstens drei Stunden aushalt. 

2. Wie viel Prozent der MP3-Player schaffen mindestens 150 Minuten? 

3. Mit welcher Wahrscheinlichkeit spielt ein MP3-Playerzwischen zweieinhalb und dreieinhalb Stunden? 

4. Bestimmen Sie d derart, dass der Anteil der MP3-Player, die zwischen u - d und u + d aushalten, 90% betragt. 

Aufgabe 3.5 - Kuchenschaben 

Eine Diplomarbeit iiber Kuchenschaben hat ergeben, dass die Lange von Kuchenschaben in einer bestimmten Altbauwohnung normalverteilt ist 
mit dem Erwartungswert 3 cm und der Varianz 4 cm 2 . In der Nacht wird eine Schabe zufallig eingefangen. 
Bestimmen Sie die Wahrscheinlichkeit, dass diese Schabe 

1. 1. mindestens 5 cm 

2. zwischen 2 und 5 cm 

3. hochstens 1 cm 

4. hochstens 2 oder mindestens 4 cm 
lang ist. 

Welche Mindestgrofte haben die 10% graft ten Schaben? 

Aufgabe 3.6 - Galapagos 

Bei einer umfassenden Bestandsaufnahme von Groftechsen auf einer Galapagosinsel stellte sich heraus, dass das Gewicht Xdieser Echsen 
annahernd normalverteilt ist. 15,87% der Echsen wogen mehr als 120 kg. x(0,33) betrug 75. 

1. Tragen Sie die Angaben in die Grafik ein, wobei die Eintragungen nicht exakt maftstabsgetreu sein mussen. 

2. Wieviel wogen die Echsen im Durchschnitt? 

3. Wieviel betrug die durchschnittliche quadratische Abweichung der Gewichte vom Mittel? 

















































-- 












/ 










/ 


zs 




^^r 







Aufgabe 3.7 - Nahfehler 

Es ist bekannt, dass in einem Unternehmen, das Unterwasche produziert, der Anteil von Spitzen-Damenunterhemden mit Nahfehlern etwa 10% 
betragt. Dertagliche Output ist sehr graft. Es werden wahrend eines Tages fur die Warenkontrolle n=200 Hemdchen zufallig ausgewahlt. 

1. Bestimmen Sie die exakte Wahrscheinlichkeit, dass mindestens 15 Hemdchen Mangel aufweisen (nurAnsatz). 

2. Berechnen Sie, falls moglich, die obige Wahrscheinlichkeit naherungsweise. 

3. Mit welcher Wahrscheinlichkeit erhalt man bei der Qualitatskontrolle mindestens 20 und hochstens 30 Hemdchen mit Fehlern? 

4. Mit welcher Wahrscheinlichkeit erhalt man bei der Qualitatskontrolle genau 20 fehlerhafte Hemdchen? 

5. Ist es wahrscheinlicher, 19 bis 21 oder 23 bis 25 fehlerhafte Hemdchen zu erhalten? 



Kapitel 4 
Kapitel 5 

Aufgabe 5.1 - Hotelsterne 
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Eine Reiseveranstalter hat 9 Kunden nach ihrer Zufriedenheit mit dem Hotel befragt, das sie im letzten Urlaub hatten. 



Kunde Nr. 


Sterne des Hotels 


Note des Kunden 


1 


* 


3 


2 


*** 


2 


3 


** 


2 


4 


** 


4 


5 


*** 


1 


6 


** 


1 


7 


** 


3 


8 


**** 


1 


9 


* 


4 



Ermitteln Sie den Rangkorrelationskoeffizienten der Sterne mit der Zufriedenheit 

Aufgabe 5.2 - Solaranlagen 

Eine Heizungsfirma hat in den letzten 8 Monaten jeweils x mal in der regionalen Tageszeitung inseriert. Sie konnte in diesen Monaten jeweils y 
viele Solaranlagen verkaufen. 

Es ergab sich 



Monat 


i 


1 


2 


3 


4 


5 


6 


7 


8 


Inserate 


X 





2 


2 


4 


4 


6 


6 


8 


Solaranlagen 


y 


6 


6 


8 


8 


12 


8 


16 


16 



1. Tragen Sie die Wertepaare in einem Streudiagramm ab. 

2. Ermitteln Sie die Regressionsgerade y = a + bx und tragen Sie sie in das Diagramm ein. 

3. Berechnen Sie die geschatzten Werte y~ und die Residuen. 

4. Berechnen Sie das BestimmtheitsmaG. 

5. Ermitteln Sie die Varianzen von y, y~ und der Residuen. Zeigen Sie, dass die Streuungszerlegung hier gilt und ermitteln Sie das 
BestimmtheitsmaG als Anteil der durch y~ erklarten Streuung an der Gesamtstreuung von y. 

Aufgabe 5.3 - Fair-Trade-Tee 

Gegeben ist fur die Jahre 1998 bis 2003 die Zahl der in der EU verkauften Tonnen Tee im fairen Handel. 



Jahr 


Zeitpunkt x 


Menge y 


1998 


1 


612 


1999 


2 


842 


2000 


3 


890 


2001 


4 


1004 


2002 


5 


1154 


2003 


6 


1414 
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1. Ermitteln Sie eine Regressionsgerade, die die Entwicklung des Verkaufs im Lauf der Jahre beschreibt. 

2. Berechnen Sie das BestimmtheitsmaG. 



Kapitel 6 
Kapitel 7 

Aufgabe 7.1 - Tarifsystem 



Eine Analyse der Kundenzufriedenheit eines groften Verkehrsbetriebes gab Anlass zu der Befurchtung, dass 75% der Fahrgaste das 
Tarifsystem nicht verstanden hatten. 

1. 75% der Kunden haben das Tarifsystem nicht verstanden. Es wurden in einem zentral gelegenen U-Bahnhof zufallig 10 Personen befragt. 

1 . Mit welcher Wahrscheinlichkeit hat jeder die Tarifordnung verstanden? 

2. Mit welcher Wahrscheinlichkeit haben genau 8 Personen die Tarifordnung verstanden? 

3. Mit welcher Wahrscheinlichkeit haben mindestens 2 Personen die Tarifordnung nicht verstanden? 

4. Mit welcher Wahrscheinlichkeit haben an zwei aufeinanderfolgenden Tagen jeweils mindestens zwei Personen das Tarifsystem 
nicht verstanden, wenn die Befragungen stochastisch unabhangig waren. 

2. Es wurden 100 Personen befragt. 

1 . Mit welcher Wahrscheinlichkeit haben genau 75 Personen die Tarifordnung nicht verstanden? 

2. Mit welcher Wahrscheinlichkeit haben hochstens 75 Personen die Tarifordnung nicht verstanden? 

3. Es haben 70 Kunden angegeben, das System nicht verstanden zu haben. Uberprufen Sie die Hypothese (a = 0,05), dass 
mindestens 75% die Tarifordnung nicht verstanden haben. 

Aufgabe 7.2 - Kaviar 

Ein Delikatessengrofthandel erhalt eine umfangreiche Lieferung von 50-g-Schalen Kaviar. Es ist bekannt, dass die Fullmenge des Kaviars 
normalverteilt ist. Der Lieferant versichtert, dass sich in jeder Dose im Mittel mindestens 50 g Kaviar befanden. Es werden zu Priifzwecken 6 
Schalchen zufallig ausgewahlt und geoffnet. Man erhalt die Urliste 

47 49 50 52 50 46 



1. Priifen Sie die Behauptung des Lieferanten (a = 0,1). 

2. Wiirde sich die Position des Lieferanten verschlechtern, wenn man ein Signifikanzniveau von 0,05 verwenden wiirde? 



Statistik auf dem Computer 
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Einfache Statistikprogramme 



Statistische Berechnungen mit der Tabellenkalkulation von Open Office 

Auf vielen Rechnern findet sich mittlerweile das Programm Open Office. 

Dort konnen Sie innerhalb der Tabellenkalkulation viele statistische Funktionen ausfuhren. 

Offnen Sie dazu ein neues Dokument in Open Office und wahlen Sie bei der Art des Dokumentes Tabellenkalkulation. 

Geben Sie Ihre Werte beispielsweise in der ersten Spalte A ein. 

Uber Einfugen, Funktion konnen Sie verschiedene Berechnungen auswahlen, die Sie in einem freien Feld durchfuhren lassen. Ihre Werteliste 
markieren Sie fur die Berechnung. Das Ergebnis erhalten Sie nach anklicken des griinen Hackchens neben der Eingabezeile. 

Probieren Sie das ganze mit folgender Werteliste aus. Man kann sie mittels Zwischenspeicher direkt in die Tabellenkalkulation ubernehmen. 
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(Anmarkieren, mit Strg + C in den Zwischenspeicher holen, im ersten Feld der Tabellenkalkulation mit Strg + V wieder abladen.) 



114,3 

135,7 

104, 8 

118,5 

125,7 

121,4 

122,4 

96,8 

118,9 

120 

112,2 

127, 9 

122,8 

128,9 

120,3 



Versuchen Sie den Median, den Mittelwert, die Standardabweichung, die Varianz und den Maximalwert zu ermitteln. Dazu gehen Sie in ein 
leeres Feld am Ende ihrer Liste. Dann wahlen Sie im Menu den Eintrag Einfugen und dort wieder Funktionsliste. Aus der Funktionsliste wahlen 
Sie die statistischen Funktionen aus. Aus dem gro&en Angebot wahlen Sie den Median. 

Sie konnen auch direkt in die Eingabezeile folgendes eingeben: 

=MEDIAN(A1 :A15) 

oder 



=MITTELWERT (Al :A15) 



Es muftten folgende Werte herauskommen: 

Summe: 1790,6 

Mittelwert 119,37 

Median 120,3 

Maximal 135,7 

Standardabweichung 9,62 

Varianz 92,6 

Statistik mit Gnumeric 

Gnumeric ist die Tabellenkalkulation unter Gnome. Es bietet bessere statistische Berechnungsmoglichkeiten als Excel. Siehe 
http://de.wikipedia.org/wiki/Gnumeric # Siehe http://www.gnome.org/projects/gnumeric/ & 

Statistische Berechnungen mit der Programmiersprache Gambas 

Auf vielen Linuxrechnern findet sich mittlerweile die einfach zu lernende Programmsprache Gambas. 

Dort kann man viele statistische Funktionen nachvollziehen. Es gilt das alte Motto: Habe ich es noch nicht programmiert, dann habe ich es 
noch nicht verstanden. 

Im Gambas Wikibook sollen nach und nach eine Reihe von Statistikfunktionen im Quelltext erklart und verfugbar gemacht werden. 

Siehe http://de.wikibooks.Org/wiki/Gambas:_Statistik & 



Komplexere, professionelle Statistik-Software 
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R (Windows, OS X, Linux) 

R ist ein eine umfangreiche Statistiksoftware, genauer: eine Programmierumgebung fur statistischeAuswertungen. Im Funktionsumfang mit 
kommerziellen Softwarepaketen wie SPSS oder STATA durchaus vergleichbar (und stellenweise iiberlegen) werden eine Vielzahl statistischer 
Methoden und Routinen bereitgestellt. Der Prog ram maufbau mag zwar insbesondere fur Anfanger etwas unubersichtlich sein, besticht jedoch 
durch zahlreiche Features: Vollstandige Kontrolle uberdie Daten, Implementation einer grossen Anzahl an Analyse-Verfahren, flexible 
Graphikfahigkeiten, Systemunabhangigkeit, automatisierteAuswertungen, Schnittstellen zu vielen anderen Anwendungen und nicht zuletzt 
kostenlose Verfugbakeit konnten dazu fuhren, dass R sich im professionellen Bereich zum neuen Standard entwickelt. 

Tipp: Eine Einfuhrung in R bietet das Wikibook GNU R. 

Einsteiger konnen zudem auf graphische Bedienoberflachen zuruckgreifen. 
Siehe: 

• R 

• http://www.r-project.org/ & 

• http://de.wikibooks.org/wiki/GNU_R # 

• Graphische Bedienung (GUIs): 

• Jaguar: http://stats.math.uni-augsburg.de/JGR/ # 

• R Commander: http://socservmcmaster.ca/jfox/Misc/Rcmdr/ & 

• Das Statistiklabor: http://www.statistiklabor.de ^ 

SPSS ( Windows, OS X, Linux (nur Server-Variante) ) 

Insbesondere in den Sozial- und Verhaltenswissenschaften findet die kommerzielle Software SPSS grossen Zuspruch. Hauptvorteile sind 
einfache Bedienbarkeit furAnwender, die die Steuerung mit Menus und Maus favorisieren. Tabellen und Graphiken sind fur die Weiterverwendung 
in Office-Anwendungen optimiert und konnen nachtraglich formatiert werden. Zudem gibt es Erganzungspakete, die den Prozess der 
Datenerfassung erleichtern. Integriert sind die meisten gebrauchlichen Standardverfahren uni- und multivariater Statistik. Spezielle Anwendungen 
werden als Zusatzpakete vertrieben. 

• Wikipedia uber SPSS [^ 

• http://www.spss.com/de/ & 

STATA ( Windows, OS X, Linux ) 

STATA ist eine Statistiksoftware, die bislang hauptsachlich im anglo-amerikanischen Raum Verbreitung gefunden hat. Wenngleich STATA 
ebenfalls uber eine gut strukturierte Menubedienung verfugt, besticht die Software vor allem durch ihre an BASICS erinnernde, relativeinfach zu 
erlernende Befehlssyntax und eine umfangliche, ubersichtliche Integration weitreichender statistischer Verfahren. 

• Wikipedia iiber STATA i§> 

• http://www.stata.com & 
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11.1.1. 



Normalverteilung 
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Erlauterungen zur Normalverteilungstabelle: 

Die fettgedruckten Werte sind die Auspragungen z der standardnormalverteilten Zufallsvariablen Z, die vierstelligen Ziffern in der Tabelle selbst 
stellen die zu z gehorigen Verteilungswerte dar, wobei "0," weggelassen wurde. 

Es ist beispielsweise P(Z < 2,51) = 0,9940. 



z 


0,00 


0,01 


0,02 


0,03 


0,04 


0,05 


0,06 


0,07 


0,08 


0,09 


0,0 


5000 


5040 


5080 


5120 


5160 


5199 


5239 


5279 


5319 


5359 


0,1 


5398 


5438 


5478 


5517 


5557 


5596 


5636 


5675 


5714 


5753 


0,2 


5793 


5832 


5871 


5910 


5948 


5987 


6026 


6064 


6103 


6141 


0,3 


6179 


6217 


6255 


6293 


6331 


6368 


6406 


6443 


6480 


6517 


0,4 


6554 


6591 


6628 


6664 


6700 


6736 


6772 


6808 


6844 


6879 
























0,5 


6915 


6950 


6985 


7019 


7054 


7088 


7123 


7157 


7190 


7224 


0,6 


7257 


7291 


7324 


7357 


7389 


7422 


7454 


7486 


7517 


7549 
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0,7 


7580 


7611 


7642 


7673 


7704 


7734 


7764 


7794 


7823 


7852 


0,8 


7881 


7910 


7939 


7967 


7995 


8023 


8051 


8078 


8106 


8133 


0,9 


8159 


8186 


8212 


8238 


8264 


8289 


8315 


8340 


8365 


8389 
























1,0 


8413 


8438 


8461 


8485 


8508 


8531 


8554 


8577 


8599 


8621 


1,1 


8643 


8665 


8686 


8708 


8729 


8749 


8770 


8790 


8810 


8830 


1,2 


8849 


8869 


8888 


8907 


8925 


8944 


8962 


8980 


8997 


9015 


1,3 


9032 


9049 


9066 


9082 


9099 


9115 


9131 


9147 


9162 


9177 


1,4 


9192 


9207 


9222 


9236 


9251 


9265 


9279 


9292 


9306 


9319 
























1,5 


9332 


9345 


9357 


9370 


9382 


9394 


9406 


9418 


9429 


9441 


1,6 


9452 


9463 


9474 


9484 


9495 


9505 


9515 


9525 


9535 


9545 


1,7 


9554 


9564 


9573 


9582 


9591 


9599 


9608 


9616 


9625 


9633 


1,8 


9641 


9649 


9656 


9664 


9671 


9678 


9686 


9693 


9699 


9706 


1,9 


9713 


9719 


9726 


9732 


9738 


9744 


9750 


9756 


9761 


9767 
























2,0 


9772 


9778 


9783 


9788 


9793 


9798 


9803 


9808 


9812 


9817 


2,1 


9821 


9826 


9830 


9834 


9838 


9842 


9846 


9850 


9854 


9857 


2,2 


9861 


9864 


9868 


9871 


9875 


9878 


9881 


9884 


9887 


9890 


2,3 


9893 


9896 


9898 


9901 


9904 


9906 


9909 


9911 


9913 


9916 


2,4 


9918 


9920 


9922 


9925 


9927 


9929 


9931 


9932 


9934 


9936 
























2,5 


9938 


9940 


9941 


9943 


9945 


9946 


9948 


9949 


9951 


9952 


2,6 


9953 


9955 


9956 


9957 


9959 


9960 


9961 


9962 


9963 


9964 


2,7 


9965 


9966 


9967 


9968 


9969 


9970 


9971 


9972 


9973 


9974 


2,8 


9974 


9975 


9976 


9977 


9977 


9978 


9979 


9979 


9980 


9981 
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2,9 


9981 


9982 


9982 


9983 


9984 


9984 


9985 


9985 


9986 


9986 
























3,0 


9987 


9987 


9987 


9988 


9988 


9989 


9989 


9989 


9990 


9990 


3,1 


9990 


9991 


9991 


9991 


9992 


9992 


9992 


9992 


9993 


9993 


3,2 


9993 


9993 


9994 


9994 


9994 


9994 


9994 


9995 


9995 


9995 


3,3 


9995 


9995 


9995 


9996 


9996 


9996 


9996 


9996 


9996 


9997 


3,4 


9997 


9997 


9997 


9997 


9997 


9997 


9997 


9997 


9997 


9998 



11.1 .2. Chi-Quadrat-Verteilung 
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Quantile der Chi-Quadrat-Verteilung nach ausgewahlten Wahrscheinlichkeiten p und 

Freiheitsgraden 





Wahrscheinlichkeit p 


Freihe 


tsgrade 


0,005 


0,01 


0,025 


0,05 


0,1 


0,5 


0,9 


0,95 


0,975 


0,99 


0,995 


1 


0,00 


0,00 


0,00 


0,00 


0,02 


0,45 


2,71 


3,84 


5,02 


6,63 


7,88 


2 


0,01 


0,02 


0,05 


0,10 


0,21 


1,39 


4,61 


5,99 


7,38 


9,21 


10,60 


3 


0,07 


0,11 


0,22 


0,35 


0,58 


2,37 


6,25 


7,81 


9,35 


11,34 


12,84 


4 


0,21 


0,30 


0,48 


0,71 


1,06 


3,36 


7,78 


9,49 


11,14 


13,28 


14,86 


5 


0,41 


0,55 


0,83 


1,15 


1,61 


4,35 


9,24 


11,07 


12,83 


15,09 


16,75 


6 


0,68 


0,87 


1,24 


1,64 


2,20 


5,35 


10,64 


12,59 


14,45 


16,81 


18,55 


7 


0,99 


1,24 


1,69 


2,17 


2,83 


6,35 


12,02 


14,07 


16,01 


18,48 


20,28 


8 


1,34 


1,65 


2,18 


2,73 


3,49 


7,34 


13,36 


15,51 


17,53 


20,09 


21,95 


9 


1,73 


2,09 


2,70 


3,33 


4,17 


8,34 


14,68 


16,92 


19,02 


21,67 


23,59 


10 


2,16 


2,56 


3,25 


3,94 


4,87 


9,34 


15,99 


18,31 


20,48 


23,21 


25,19 


P 


- 


0,005 


0,01 


0,025 


0,05 


0,1 


0,5 


0,9 


0,95 


0,975 


0,99 


0,995 


11 


2,60 


3,05 


3,82 


4,57 


5,58 


10,34 


17,28 


19,68 


21,92 


24,73 


26,76 
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12 


3,07 


3,57 


4,40 


5,23 


6,30 


11,34 


18,55 


21,03 


23,34 


26,22 


28,30 


13 


3,57 


4,11 


5,01 


5,89 


7,04 


12,34 


19,81 


22,36 


24,74 


27,69 


29,82 


14 


4,07 


4,66 


5,63 


6,57 


7,79 


13,34 


21,06 


23,68 


26,12 


29,14 


31,32 


15 


4,60 


5,23 


6,26 


7,26 


8,55 


14,34 


22,31 


25,00 


27,49 


30,58 


32,80 


16 


5,14 


5,81 


6,91 


7,96 


9,31 


15,34 


23,54 


26,30 


28,85 


32,00 


34,27 


17 


5,70 


6,41 


7,56 


8,67 


10,09 


16,34 


24,77 


27,59 


30,19 


33,41 


35,72 


18 


6,26 


7,01 


8,23 


9,39 


10,86 


17,34 


25,99 


28,87 


31,53 


34,81 


37,16 


19 


6,84 


7,63 


8,91 


10,12 


11,65 


18,34 


27,20 


30,14 


32,85 


36,19 


38,58 


20 


7,43 


8,26 


9,59 


10,85 


12,44 


19,34 


28,41 


31,41 


34,17 


37,57 


40,00 


P^ 


0,005 


0,01 


0,025 


0,05 


0,1 


0,5 


0,9 


0,95 


0,975 


0,99 


0,995 


21 


8,03 


8,90 


10,28 


11,59 


13,24 


20,34 


29,62 


32,67 


35,48 


38,93 


41,40 


22 


8,64 


9,54 


10,98 


12,34 


14,04 


21,34 


30,81 


33,92 


36,78 


40,29 


42,80 


23 


9,26 


10,20 


11,69 


13,09 


14,85 


22,34 


32,01 


35,17 


38,08 


41,64 


44,18 


24 


9,89 


10,86 


12,40 


13,85 


15,66 


23,34 


33,20 


36,42 


39,36 


42,98 


45,56 


25 


10,52 


11,52 


13,12 


14,61 


16,47 


24,34 


34,38 


37,65 


40,65 


44,31 


46,93 


26 


11,16 


12,20 


13,84 


15,38 


17,29 


25,34 


35,56 


38,89 


41,92 


45,64 


48,29 


27 


11,81 


12,88 


14,57 


16,15 


18,11 


26,34 


36,74 


40,11 


43,19 


46,96 


49,65 


28 


12,46 


13,56 


15,31 


16,93 


18,94 


27,34 


37,92 


41,34 


44,46 


48,28 


50,99 


29 


13,12 


14,26 


16,05 


17,71 


19,77 


28,34 


39,09 


42,56 


45,72 


49,59 


52,34 


30 


13,79 


14,95 


16,79 


18,49 


20,60 


29,34 


40,26 


43,77 


46,98 


50,89 


53,67 


P^ 


0,005 


0,01 


0,025 


0,05 


0,1 


0,5 


0,9 


0,95 


0,975 


0,99 


0,995 


31 


14,46 


15,66 


17,54 


19,28 


21,43 


30,34 


41,42 


44,99 


48,23 


52,19 


55,00 


32 


15,13 


16,36 


18,29 


20,07 


22,27 


31,34 


42,59 


46,19 


49,48 


53,49 


56,33 


33 


15,82 


17,07 


19,05 


20,87 


23,11 


32,34 


43,75 


47,40 


50,73 


54,78 


57,65 


34 


16,50 


17,79 


19,81 


21,66 


23,95 


33,34 


44,90 


48,60 


51,97 


56,06 


58,96 
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35 


17,19 


18,51 


20,57 


22,47 


24,80 


34,34 


46,06 


49,80 


53,20 


57,34 


60,28 


36 


17,89 


19,23 


21,34 


23,27 


25,64 


35,34 


47,21 


51,00 


54,44 


58,62 


61,58 


37 


18,59 


19,96 


22,11 


24,08 


26,49 


36,34 


48,36 


52,19 


55,67 


59,89 


62,88 


38 


19,29 


20,69 


22,88 


24,88 


27,34 


37,34 


49,51 


53,38 


56,90 


61,16 


64,18 


39 


20,00 


21,43 


23,65 


25,70 


28,20 


38,34 


50,66 


54,57 


58,12 


62,43 


65,48 


40 


20,71 


22,16 


24,43 


26,51 


29,05 


39,34 


51,80 


55,76 


59,34 


63,69 


66,77 



11.1.3. F-Verteilung 
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Quantile der F-Verteilung fur die Wahrscheinlichkeit 0,975 und k 1 und k 2 (1 bis 15) 



k 2 - 


1 


2 


3 


4 


5 


6 


7 


8 


9 


10 


11 


12 


13 


14 


15 


ki 
































1 


647,79 


38,51 


17,44 


12,22 


10,01 


8,81 


8,07 


7,57 


7,21 


6,94 


6,72 


6,55 


6,41 


6,30 


6,20 


2 


799,48 


39,00 


16,04 


10,65 


8,43 


7,26 


6,54 


6,06 


5,71 


5,46 


5,26 


5,10 


4,97 


4,86 


4,77 


3 


864,15 


39,17 


15,44 


9,98 


7,76 


6,60 


5,89 


5,42 


5,08 


4,83 


4,63 


4,47 


4,35 


4,24 


4,15 


4 


899,60 


39,25 


15,10 


9,60 


7,39 


6,23 


5,52 


5,05 


4,72 


4,47 


4,28 


4,12 


4,00 


3,89 


3,80 


5 


921,83 


39,30 


14,88 


9,36 


7,15 


5,99 


5,29 


4,82 


4,48 


4,24 


4,04 


3,89 


3,77 


3,66 


3,58 


6 


937,11 


39,33 


14,73 


9,20 


6,98 


5,82 


5,12 


4,65 


4,32 


4,07 


3,88 


3,73 


3,60 


3,50 


3,41 


7 


948,20 


39,36 


14,62 


9,07 


6,85 


5,70 


4,99 


4,53 


4,20 


3,95 


3,76 


3,61 


3,48 


3,38 


3,29 


8 


956,64 


39,37 


14,54 


8,98 


6,76 


5,60 


4,90 


4,43 


4,10 


3,85 


3,66 


3,51 


3,39 


3,29 


3,20 


9 


963,28 


39,39 


14,47 


8,90 


6,68 


5,52 


4,82 


4,36 


4,03 


3,78 


3,59 


3,44 


3,31 


3,21 


3,12 


10 


968,63 


39,40 


14,42 


8,84 


6,62 


5,46 


4,76 


4,30 


3,96 


3,72 


3,53 


3,37 


3,25 


3,15 


3,06 


k 2 - 


1 


2 


3 


4 


5 


6 


7 


8 


9 


10 


11 


12 


13 


14 


15 


11 


973,03 


39,41 


14,37 


8,79 


6,57 


5,41 


4,71 


4,24 


3,91 


3,66 


3,47 


3,32 


3,20 


3,09 


3,01 
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12 


976,72 


39,41 


14,34 


8,75 


6,52 


5,37 


4,67 


4,20 


3,87 


3,62 


3,43 


3,28 


3,15 


3,05 


2,96 


13 


979,84 


39,42 


14,30 


8,72 


6,49 


5,33 


4,63 


4,16 


3,83 


3,58 


3,39 


3,24 


3,12 


3,01 


2,92 


14 


982,55 


39,43 


14,28 


8,68 


6,46 


5,30 


4,60 


4,13 


3,80 


3,55 


3,36 


3,21 


3,08 


2,98 


2,89 


15 


984,87 


39,43 


14,25 


8,66 


6,43 


5,27 


4,57 


4,10 


3,77 


3,52 


3,33 


3,18 


3,05 


2,95 


2,86 


16 


986,91 


39,44 


14,23 


8,63 


6,40 


5,24 


4,54 


4,08 


3,74 


3,50 


3,30 


3,15 


3,03 


2,92 


2,84 


17 


988,72 


39,44 


14,21 


8,61 


6,38 


5,22 


4,52 


4,05 


3,72 


3,47 


3,28 


3,13 


3,00 


2,90 


2,81 


18 


990,35 


39,44 


14,20 


8,59 


6,36 


5,20 


4,50 


4,03 


3,70 


3,45 


3,26 


3,11 


2,98 


2,88 


2,79 


19 


991,80 


39,45 


14,18 


8,58 


6,34 


5,18 


4,48 


4,02 


3,68 


3,44 


3,24 


3,09 


2,96 


2,86 


2,77 


20 


993,08 


39,45 


14,17 


8,56 


6,33 


5,17 


4,47 


4,00 


3,67 


3,42 


3,23 


3,07 


2,95 


2,84 


2,76 


k 2 - 


1 


2 


3 


4 


5 


6 


7 


8 


9 


10 


11 


12 


13 


14 


15 


21 


994,30 


39,45 


14,16 


8,55 


6,31 


5,15 


4,45 


3,98 


3,65 


3,40 


3,21 


3,06 


2,93 


2,83 


2,74 


22 


995,35 


39,45 


14,14 


8,53 


6,30 


5,14 


4,44 


3,97 


3,64 


3,39 


3,20 


3,04 


2,92 


2,81 


2,73 


23 


996,34 


39,45 


14,13 


8,52 


6,29 


5,13 


4,43 


3,96 


3,63 


3,38 


3,18 


3,03 


2,91 


2,80 


2,71 


24 


997,27 


39,46 


14,12 


8,51 


6,28 


5,12 


4,41 


3,95 


3,61 


3,37 


3,17 


3,02 


2,89 


2,79 


2,70 


25 


998,09 


39,46 


14,12 


8,50 


6,27 


5,11 


4,40 


3,94 


3,60 


3,35 


3,16 


3,01 


2,88 


2,78 


2,69 


26 


998,84 


39,46 


14,11 


8,49 


6,26 


5,10 


4,39 


3,93 


3,59 


3,34 


3,15 


3,00 


2,87 


2,77 


2,68 


27 


999,54 


39,46 


14,10 


8,48 


6,25 


5,09 


4,39 


3,92 


3,58 


3,34 


3,14 


2,99 


2,86 


2,76 


2,67 


28 


1000,24 


39,46 


14,09 


8,48 


6,24 


5,08 


4,38 


3,91 


3,58 


3,33 


3,13 


2,98 


2,85 


2,75 


2,66 


29 


1000,82 


39,46 


14,09 


8,47 


6,23 


5,07 


4,37 


3,90 


3,57 


3,32 


3,13 


2,97 


2,85 


2,74 


2,65 


30 


1001,40 


39,46 


14,08 


8,46 


6,23 


5,07 


4,36 


3,89 


3,56 


3,31 


3,12 


2,96 


2,84 


2,73 


2,64 



Quantile der F-Verteilung fur die Wahrscheinlichkeit 0,975 und k<| und k2 (16 bis 30) 

Freiheitsgrade 



k 2 - 


16 


17 


18 


19 


20 


21 


22 


23 


24 


25 


26 


27 


28 


29 


30 


ki 
































1 


6,12 


6,04 


5,98 


5,92 


5,87 


5,83 


5,79 


5,75 


5,72 


5,69 


5,66 


5,63 


5,61 


5,59 


5,57 
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2 


4,69 


4,62 


4,56 


4,51 


4,46 


4,42 


4,38 


4,35 


4,32 


4,29 


4,27 


4,24 


4,22 


4,20 


4,18 


3 


4,08 


4,01 


3,95 


3,90 


3,86 


3,82 


3,78 


3,75 


3,72 


3,69 


3,67 


3,65 


3,63 


3,61 


3,59 


4 


3,73 


3,66 


3,61 


3,56 


3,51 


3,48 


3,44 


3,41 


3,38 


3,35 


3,33 


3,31 


3,29 


3,27 


3,25 


5 


3,50 


3,44 


3,38 


3,33 


3,29 


3,25 


3,22 


3,18 


3,15 


3,13 


3,10 


3,08 


3,06 


3,04 


3,03 


6 


3,34 


3,28 


3,22 


3,17 


3,13 


3,09 


3,05 


3,02 


2,99 


2,97 


2,94 


2,92 


2,90 


2,88 


2,87 


7 


3,22 


3,16 


3,10 


3,05 


3,01 


2,97 


2,93 


2,90 


2,87 


2,85 


2,82 


2,80 


2,78 


2,76 


2,75 


8 


3,12 


3,06 


3,01 


2,96 


2,91 


2,87 


2,84 


2,81 


2,78 


2,75 


2,73 


2,71 


2,69 


2,67 


2,65 


9 


3,05 


2,98 


2,93 


2,88 


2,84 


2,80 


2,76 


2,73 


2,70 


2,68 


2,65 


2,63 


2,61 


2,59 


2,57 


10 


2,99 


2,92 


2,87 


2,82 


2,77 


2,73 


2,70 


2,67 


2,64 


2,61 


2,59 


2,57 


2,55 


2,53 


2,51 


k 2 - 


16 


17 


18 


19 


20 


21 


22 


23 


24 


25 


26 


27 


28 


29 


30 


11 


2,93 


2,87 


2,81 


2,76 


2,72 


2,68 


2,65 


2,62 


2,59 


2,56 


2,54 


2,51 


2,49 


2,48 


2,46 


12 


2,89 


2,82 


2,77 


2,72 


2,68 


2,64 


2,60 


2,57 


2,54 


2,51 


2,49 


2,47 


2,45 


2,43 


2,41 


13 


2,85 


2,79 


2,73 


2,68 


2,64 


2,60 


2,56 


2,53 


2,50 


2,48 


2,45 


2,43 


2,41 


2,39 


2,37 


14 


2,82 


2,75 


2,70 


2,65 


2,60 


2,56 


2,53 


2,50 


2,47 


2,44 


2,42 


2,39 


2,37 


2,36 


2,34 


15 


2,79 


2,72 


2,67 


2,62 


2,57 


2,53 


2,50 


2,47 


2,44 


2,41 


2,39 


2,36 


2,34 


2,32 


2,31 


16 


2,76 


2,70 


2,64 


2,59 


2,55 


2,51 


2,47 


2,44 


2,41 


2,38 


2,36 


2,34 


2,32 


2,30 


2,28 


17 


2,74 


2,67 


2,62 


2,57 


2,52 


2,48 


2,45 


2,42 


2,39 


2,36 


2,34 


2,31 


2,29 


2,27 


2,26 


18 


2,72 


2,65 


2,60 


2,55 


2,50 


2,46 


2,43 


2,39 


2,36 


2,34 


2,31 


2,29 


2,27 


2,25 


2,23 


19 


2,70 


2,63 


2,58 


2,53 


2,48 


2,44 


2,41 


2,37 


2,35 


2,32 


2,29 


2,27 


2,25 


2,23 


2,21 


20 


2,68 


2,62 


2,56 


2,51 


2,46 


2,42 


2,39 


2,36 


2,33 


2,30 


2,28 


2,25 


2,23 


2,21 


2,20 


k 2 - 


16 


17 


18 


19 


20 


21 


22 


23 


24 


25 


26 


27 


28 


29 


30 


21 


2,67 


2,60 


2,54 


2,49 


2,45 


2,41 


2,37 


2,34 


2,31 


2,28 


2,26 


2,24 


2,22 


2,20 


2,18 


22 


2,65 


2,59 


2,53 


2,48 


2,43 


2,39 


2,36 


2,33 


2,30 


2,27 


2,24 


2,22 


2,20 


2,18 


2,16 


23 


2,64 


2,57 


2,52 


2,46 


2,42 


2,38 


2,34 


2,31 


2,28 


2,26 


2,23 


2,21 


2,19 


2,17 


2,15 


24 


2,63 


2,56 


2,50 


2,45 


2,41 


2,37 


2,33 


2,30 


2,27 


2,24 


2,22 


2,19 


2,17 


2,15 


2,14 
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25 


2,61 


2,55 


2,49 


2,44 


2,40 


2,36 


2,32 


2,29 


2,26 


2,23 


2,21 


2,18 


2,16 


2,14 


2,12 


26 


2,60 


2,54 


2,48 


2,43 


2,39 


2,34 


2,31 


2,28 


2,25 


2,22 


2,19 


2,17 


2,15 


2,13 


2,11 


27 


2,59 


2,53 


2,47 


2,42 


2,38 


2,33 


2,30 


2,27 


2,24 


2,21 


2,18 


2,16 


2,14 


2,12 


2,10 


28 


2,58 


2,52 


2,46 


2,41 


2,37 


2,33 


2,29 


2,26 


2,23 


2,20 


2,17 


2,15 


2,13 


2,11 


2,09 


29 


2,58 


2,51 


2,45 


2,40 


2,36 


2,32 


2,28 


2,25 


2,22 


2,19 


2,17 


2,14 


2,12 


2,10 


2,08 


30 


2,57 


2,50 


2,44 


2,39 


2,35 


2,31 


2,27 


2,24 


2,21 


2,18 


2,16 


2,13 


2,11 


2,09 


2,07 



11.1.4. t-Verteilung 



« hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 11 vom Inhaltsverzeichnis 



Quantile der t-Verteilung nach ausgewahlten 
Wahrscheinlichkeiten p und Freiheitsgraden 





Wahrscheinlichkeit p 


Freiheitsgrade 


0,900 


0,950 


0,975 


0,990 


0,995 


1 


3,078 


6,314 


12,706 


31,821 


63,656 


2 


1,886 


2,920 


4,303 


6,965 


9,925 


3 


1,638 


2,353 


3,182 


4,541 


5,841 


4 


1,533 


2,132 


2,776 


3,747 


4,604 


5 


1,476 


2,015 


2,571 


3,365 


4,032 


6 


1,440 


1,943 


2,447 


3,143 


3,707 


7 


1,415 


1,895 


2,365 


2,998 


3,499 


8 


1,397 


1,860 


2,306 


2,896 


3,355 


9 


1,383 


1,833 


2,262 


2,821 


3,250 


10 


1,372 


1,812 


2,228 


2,764 


3,169 


P^ 


0,900 


0,950 


0,975 


0,990 


0,995 


11 


1,363 


1,796 


2,201 


2,718 


3,106 
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12 


1,356 


1,782 


2,179 


2,681 


3,055 


13 


1,350 


1,771 


2,160 


2,650 


3,012 


14 


1,345 


1,761 


2,145 


2,624 


2,977 


15 


1,341 


1,753 


2,131 


2,602 


2,947 


16 


1,337 


1,746 


2,120 


2,583 


2,921 


17 


1,333 


1,740 


2,110 


2,567 


2,898 


18 


1,330 


1,734 


2,101 


2,552 


2,878 


19 


1,328 


1,729 


2,093 


2,539 


2,861 


20 


1,325 


1,725 


2,086 


2,528 


2,845 


P^ 


0,900 


0,950 


0,975 


0,990 


0,995 


21 


1,323 


1,721 


2,080 


2,518 


2,831 


22 


1,321 


1,717 


2,074 


2,508 


2,819 


23 


1,319 


1,714 


2,069 


2,500 


2,807 


24 


1,318 


1,711 


2,064 


2,492 


2,797 


25 


1,316 


1,708 


2,060 


2,485 


2,787 


26 


1,315 


1,706 


2,056 


2,479 


2,779 


27 


1,314 


1,703 


2,052 


2,473 


2,771 


28 


1,313 


1,701 


2,048 


2,467 


2,763 


29 


1,311 


1,699 


2,045 


2,462 


2,756 


30 


1,310 


1,697 


2,042 


2,457 


2,750 


1000 


1,282 


1,646 


1,962 


2,330 


2,581 



11.2. 



Weltdaten des CIA World-Fact-Book 



<< hoch zum Anfang vom Inhaltsverzeichnis 
« hoch zum Kapitel 11 vom Inhaltsverzeichnis 



Weltdaten 

Diese Daten sind dem Worldfact-Book der CIA & entnommen und daher public domain. Es handelt sich um Indikatoren fur die Entwicklung von 
Landern. Kleinere Inselarchipele und weitere kleinste Staaten wurden entfernt, wobei die Elimination keinem Kriterium gehorchte, sondern rein 
nach Gutdunken erfolgte. 
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Erlauterung der Variablen 

Die Variablen sind folgenderma&en definiert 














































Country 


Popgrow 


Birth 


Death 


Fert 


DPPop 


Pov 


Inflation 




Land 


Geburtenrate (Zahl 
Wachstumsrate _ , 

der Geburten auf 
der Bevolkerung . nnn 

1000 Einwohner) 


Sterberate (Zahl 
der Todesfalle auf 
1000 Einwohner) 


Fruchtbarkeitsrate 

(Zahl der Geburten pro 

gebarfahiger Frau) 


Bruttoinlandsprodukt 
proKopfin USD 


Prozentsatz der 

Bevolkerung 

unter der 

Armutsgrenze 


Inflationsrate 


Unemploy 


ExpMilDP 


Explife 


Med Age 


AgeStrJ 


AgeStrM 


AgeStrO 


Arbeitslosenquote 


Anteil der 

Rustungsausgaben am 

Bruttoinlandsprodukt 


Lebenserwartung KM _,. 

Median des 

eines i i 

Lebensalters 

Neugeborenen 


Anteil der bis 

15jahrigen an der 

Bevolkerung 


Anteil der 15- bis 

65jahrigen an der 

Bevolkerung 


Anteil derab 

65jahrigen an der 

Bevolkerung 


Internet 


Phone 


Populat 


InfMortT 


InfMortM 


InfMortF 


Zahl der 
Internetuser F 


Zahl der 
: estnetztelefone 


Gesamtbevolkerung 


Kindersterblichkeit (Zahl 

der Todesfalle von Kindern 

unter 1 Jahr pro 1000 

Lebendgeborenen) 


Kindersterblichkeit (Zahl der 

Todesfalle von Knaben unter 1 

Jahr pro 1000 

lebendgeborenen Knaben) 


Kindersterblichkeit (Zahl der 
Todesfalle von Madchen unter 

1 Jahr pro 1000 
lebendgeborenen Madchen) 


Weiterfuhrenden Erlauterungen zu den Variablen finden sich im https://www.cia. 
factbook/docs/notesanddefs.html ©World Factbook 

Daten 


gov/library/publications/the-world- 




Country 


Popgrow 


Birth 


Death 


Fert 


DPPop 


Pov 


Inflatior 


Unemploy 


ExpMilDP 


Explife 


Med Age 


AgeStrJ 


AgeStrM 


AgeStrO 


Internet 


Phone 


Populat 


InfMortT 


InfMortM 


InfMortF 




Afghanistan 


0,0492 


47,27 


21,12 


6,78 


700 


0,2300 


0,052C 




0,01 


42,46 


17,5 


0,447 


0,529 


0,024 


1000 


33100 


28.513.677 


165,96 


170,85 


160,82 


1000 


Albania 


0,0051 


15,08 


5,02 


2,05 


4500 


0,3000 


0,024C 


0,1580 


0,0149 


77,06 


28,2 


0,264 


0,653 


0,083 


30000 


255000 


3.544.808 


22,31 


23,01 


21,54 


30000 


Algeria 


0,0128 


17,76 


4,61 


2,04 


6000 


0,2300 


0,035C 


0,2620 


0,035 


72,74 


23,8 


0,299 


0,655 


0,046 


500000 


2199600 


32.129.324 


32,16 


36,06 


28,06 


500000 


Andorra 


0,0100 


9,32 


5,9 


1,28 


19000 




0,043C 


0,0000 




83,5 


39,7 


0,15 


0,716 


0,134 


24500 


35000 


69.865 


4,05 


4,39 


3,7 


24500 


Angola 


0,0193 


45,14 


25,86 


6,33 


1900 


0,7000 


0,766C 




0,019 


36,79 


18,1 


0,435 


0,537 


0,028 


41000 


96300 


10.978.552 


192,5 


204,97 


179,41 


41000 


Antigua and 
Barbuda 


0,0060 


17,7 


5,55 


2,27 


11000 




0,004C 


0,1100 




71,6 


29,4 


0,281 


0,676 


0,043 


10000 


38000 


68.320 


20,18 


24,29 


15,87 


10000 


Argentina 


0,0102 


17,19 


7,57 


2,24 


11200 


0,5170 


0,1 34C 


0,1730 


0,013 


75,7 


29,2 


0,259 


0,636 


0,105 


4100000 


8009400 


39.144.753 


15,66 


17,6 


13,63 


4100000 


Armenia 


-0,0032 


11,43 


8,12 


1,31 


3500 


0,5000 


0,048C 


0,2000 


0,065 


71,23 


29,7 


0,227 


0,667 


0,106 


150000 


562600 


2.991.360 


24,16 


29,32 


18,06 


150000 


Australia 


0,0090 


12,4 


7,38 


1,76 


29000 




0,028C 


0,0600 


0,028 


80,26 


36,3 


0,201 


0,672 


0,128 


9472000 


10815000 


19.913.144 


4,76 


5,16 


4,34 


9472000 


Austria 


0,0014 


8,9 


9,56 


1,35 


30000 


0,0390 


0,014C 


0,0440 


0,008 


78,87 


40 


0,159 


0,681 


0,16 


3730000 


3881000 


8.174.762 


4,68 


5,76 


3,55 


3730000 


Azerbaijan 


0,0052 


19,81 


9,76 


2,39 


3400 


0,4900 


0.021C 


0,0110 


0,026 


63,25 


27,3 


0,27 


0,652 


0,078 


300000 


923800 


7.868.385 


82,07 


83,99 


80,06 


300000 


l 




I 


l 




I 


I 


I - 




I 


I 


II I 




I 




I 




I 




I 




I 




I 


I 


I 


I 


I 


I I 



PDFmyURL.com 



Bahamas, 
The 


0,0072 


18,22 


8,82 


2,23 


16700 




0,0170 


0,0690 




65,63 


27,3 


0,283 


0,657 


0,06 


84000 


131700 


299.697 


25,7 


31,73 


19,55 


84000 


Bahrain 


0,0156 


18,54 


4,03 


2,67 


16900 




-0,0020 


0,1500 


0,075 


73,98 


29 


0,284 


0,684 


0,033 


195700 


185800 


677.886 


17,91 


20,93 


14,8 


195700 


Bangladesh 


0,0208 


30,03 


8,52 


3,15 


1900 


0,3560 


0,0560 


0,4000 


0,012 


61,71 


21,5 


0,335 


0,631 


0,034 


243000 


740000 


141.340.476 


64,32 


65,41 


63,16 


243000 


Barbados 


0,0036 


12,98 


9,08 


1,65 


15700 




-0,0050 


0,1070 




71,64 


33,7 


0,21 


0,703 


0,088 


100000 


134000 


278.289 


12,61 


14,26 


10,94 


100000 


Belarus 


-0,0011 


10,52 


14,1 


1,36 


6100 


0,2200 


0,2820 


0,0210 


0,014 


68,57 


36,9 


0,163 


0,692 


0,145 


1391900 


3071300 


10.310.520 


13,62 


14,71 


12,47 


1391900 


Belgium 


0,0016 


10,59 


10,2 


1,64 


29100 


0,0400 


0,0160 


0,0810 


0,013 


78,44 


40,2 


0,171 


0,656 


0,173 


3400000 


5120400 


10.348.276 


4,76 


5,36 


4,12 


3400000 


Belize 


0,0239 


29,89 


6,04 


3,77 


4900 


0,3300 


0,0260 


0,0910 


0,02 


67,43 


19,1 


0,406 


0,558 


0,035 


30000 


33300 


272.945 


26,37 


29,75 


22,82 


30000 


Benin 


0,0289 


42,57 


13,69 


5,95 


1100 


0,3700 


0,0150 




0,027 


50,81 


16,5 


0,468 


0,51 


0,023 


70000 


66500 


7.250.033 


85,88 


90,89 


80,71 


70000 


Bermuda 


0,0068 


11,83 


7,55 


1,9 


36000 


0,1900 


0,0330 


0,0500 


0,0011 


77,6 


39,2 


0,191 


0,693 


0,117 


34500 


56000 


64.935 


8,79 


10,45 


7,1 


34500 


Bhutan 


0,0212 


34,41 


13,2 


4,87 


1300 




0,0300 




0,019 


53,99 


20,2 


0,393 


0,566 


0,04 


15000 


25200 


2.185.569 


102,56 


100,35 


104,89 


15000 


Bolivia 


0,0156 


24,65 


7,77 


3,08 


2400 


0,7000 


0,0330 


0,1170 


0,016 


65,14 


21,1 


0,364 


0,591 


0,045 


270000 


600100 


8.724.156 


54,58 


58,23 


50,75 


270000 


Bosnia and 
Herzegovina 


0,0045 


12,56 


8,33 


1,71 


6100 




0,0090 


0,4000 


0,045 


72,57 


35,9 


0,189 


0,706 


0,105 


100000 


938000 


4.007.608 


21,88 


24,5 


19,08 


100000 


Botswana 


-0,0089 


24,71 


33,63 


3,17 


9000 


0,4700 


0,0920 


0,4000 


0,036 


30,76 


19,2 


0,392 


0,562 


0,046 


60000 


142400 


1.561.973 


69,98 


70,96 


68,96 


60000 


Brazil 


0,0111 


17,25 


6,14 


1,97 


7600 


0,2200 


0,1470 


0,1230 


0,021 


71,41 


27,4 


0,266 


0,676 


0,058 


14300000 


38810000 


184.101.109 


30,66 


34,47 


26,65 


14300000 


Brunei 


0,0195 


19,33 


3,4 


2,33 


18600 




-0,0200 


0,1000 


0,059 


74,54 


26,7 


0,291 


0,68 


0,029 


35000 


90000 


365.251 


13,05 


16,51 


9,41 


35000 


Bulgaria 


-0,0092 


9,65 


14,25 


1,37 


7600 


0,1340 


0,0230 


0,1430 


0,026 


71,75 


40,5 


0,144 


0,685 


0,171 


630000 


2868200 


7.517.973 


21,31 


25,15 


17,23 


630000 


Burkina Faso 


0,0257 


44,46 


18,79 


6,28 


1100 


0,4500 


0,0190 




0,016 


44,2 


16,8 


0,46 


0,511 


0,029 


48000 


65400 


13.574.820 


98,67 


106,7 


90,39 


48000 


Burma 


0,0047 


18,64 


12,16 


2,08 


1800 


0,2500 


0,4970 


0,0420 


0,021 


56,01 


25,7 


0,276 


0,675 


0,049 


28000 


357300 


42.720.196 


68,78 


74,78 


62,42 


28000 


Burundi 


0,0220 


39,68 


17,61 


5,9 


600 


0,6800 


0,1070 




0,06 


43,36 


16,5 


0,464 


0,509 


0,027 


14000 


23900 


6.231.221 


70,4 


77,15 


63,45 


14000 


Cambodia 


0,0180 


27,13 


9,1 


3,51 


1900 


0,3600 


0,0170 


0,0250 




58,41 


19,5 


0,383 


0,586 


0,031 


30000 


35400 


13.363.421 


73,67 


82,51 


64,44 


30000 


Cameroon 


0,0197 


35,08 


15,34 


4,55 


1800 


0,4800 


0,0230 


0,3000 


0,014 


47,95 


18,5 


0,42 


0,548 


0,032 


60000 


110900 


16.063.678 


69,18 


73,16 


65,09 


60000 


Canada 


0,0092 


10,91 


7,67 


1,61 


29800 




0,0280 


0,0780 


0,011 


79,96 


38,2 


0,182 


0,687 


0,13 


16110000 


19950900 


32.507.874 


4,82 


5,28 


4,33 


16110000 


Central 

African 

Republic 


0,0156 


35,55 


19,99 


4,59 


1100 




0,0360 


0,0800 


0,011 


41,36 
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0,538 
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5000 


9000 


3.742.482 


92,15 


99,09 
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Chad 


0,0300 


46,5 


16,38 


6,38 


1200 
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0,0600 




0,021 


48,24 


16 


0,479 


0,493 


0,028 


15000 


11800 


9.538.544 


94,78 


104,01 


85,17 


15000 


Chile 


0,0101 


15,77 


5,71 


2,06 


9900 


0,2060 


0,0280 


0,0850 


0,04 


76,38 


29,8 


0,258 


0,663 


0,078 
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3467000 


15.823.957 


9,05 


9,81 


8,25 


3575000 
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China 


0,0057 


12,98 


6,92 


1,69 


5000 


0,1000 


0,0120 


0,1010 




71,96 


31,8 


0,223 


0,703 


0,075 


79500000 


263000000 


1.298.847.624 


25,28 


21,84 


29,14 


79500000 


Colombia 


0,0153 


21,19 


5,61 


2,59 


6300 


0,5500 


0,0710 


0,1420 


0,034 


71,43 


25,8 


0,31 


0,639 


0,05 


2732200 


8768100 


42.310.775 


21,72 


25,69 


17,61 


2732200 


Congo, 

Democratic 

Republic of 

the 


0,0299 


44,73 


14,64 


6,62 


700 




0,1400 




0,014 


49,14 


15,8 


0,482 


0,493 


0,025 


50000 


10000 


58.317.930 


94,69 


103,18 


85,95 


50000 


Congo, 

Republic of 

the 


0,0142 


28,66 


14,49 


3,54 


700 




0,0240 




0,028 


49,51 


20,4 


0,379 


0,585 


0,036 


15000 


7000 


2.998.040 


93,86 


99,95 


87,59 


15000 


Costa Rica 


0,0152 


18,99 


4,32 


2,33 


9100 


0,2060 


0,0940 


0,0670 


0,004 


76,63 


25,7 


0,295 


0,65 


0,055 


800000 


1132000 


3.956.507 


10,26 


11,17 


9,3 


800000 


Cote d'lvoire 


0,0211 


39,64 


18,48 


5,42 


1400 


0,3700 


0,0340 


0,1300 


0,012 


42,48 


17 


0,451 


0,526 


0,022 


90000 


328000 


17.327.724 


97,1 


113,87 


79,83 


90000 


Croatia 


-0,0002 


9,51 


11,3 


1,39 


10600 




0,0180 


0,1950 




74,14 


39,7 


0,166 


0,67 


0,164 


1014000 


1825000 


4.496.869 


6,96 


7,03 


6,9 


1014000 


Cuba 


0,0034 


12,18 


7,17 


1,66 


2900 




0,0410 


0,0260 


0,018 


77,04 


34,8 


0,2 


0,698 


0,101 


120000 


574400 


11.308.764 


6,45 


7,25 


5,6 


120000 


Czech 
Republic 


-0,0005 


9,1 


10,54 


1,18 


15700 




0,0010 


0,0990 


0,021 


75,78 


38,6 


0,15 


0,709 


0,141 


2700000 


3626000 


10.246.178 


7,36 


9,19 


5,44 


2700000 


Denmark 


0,0035 


11,59 


10,53 


1,74 


31100 




0,0210 


0,0610 


0,016 


77,44 


39,2 


0,189 


0,662 


0,15 


2756000 


3610100 


5.413.392 


3,97 


4,32 


3,59 


2756000 


Djibouti 


0,0210 


40,39 


19,42 


5,48 


1300 


0,5000 


0,0200 


0,5000 


0,044 


43,12 


18,3 


0,432 


0,537 


0,031 


6500 


9500 


466.900 


4,63 


4,65 


4,6 


6500 


Dominica 


-0,0045 


16,25 


6,9 


1,98 


5400 


0,3000 


0,0100 


0,2300 




74,38 


29 


0,273 


0,648 


0,079 


12500 


23700 


69.278 


14,75 


19,49 


9,77 


12500 


Dominican 
Republic 


0,0133 


23,6 


7,1 


2,89 


6000 


0,2500 


0,2750 


0,1650 


0,011 


67,63 


23,7 


0,333 


0,614 


0,053 


500000 


901800 


8.833.634 


33,28 


35,75 


30,68 


500000 


East Timor 


0,0211 


27,46 


6,36 


3,7 


500 


0,4200 


0,0800 


0,5000 




65,56 


20 


0,378 


0,592 


0,029 







1.019.252 


48,86 


55,34 


42,05 





Ecuador 


0,0103 


23,18 


4,26 


2,78 


3300 


0,6500 


0,0790 


0,0980 


0,024 


76,01 


23 


0,339 


0,612 


0,049 


569700 


1549000 


13.212.742 


24,49 


29,34 


19,4 


569700 


Egypt 


0,0183 


23,84 


5,3 


2,95 


4000 


0,1670 


0,0430 


0,0990 


0,036 


70,71 


23,4 


0,334 


0,622 


0,043 


2700000 


8735700 


76.117.421 


33,9 


34,64 


33,12 


2700000 


El Salvador 


0,0178 


27,48 


5,93 


3,2 


4800 


0,4800 


0,0210 


0,0650 


0,011 


70,92 


21,4 


0,368 


0,581 


0,051 


550000 


752600 


6.587.541 


25,93 


28,79 


22,92 


550000 


Equatorial 
Guinea 


0,0243 


36,56 


12,27 


4,68 


2700 




0,0600 


0,3000 


0,025 


55,15 


18,7 


0,42 


0,543 


0,038 


1800 


9600 


523.051 


87,08 


93,27 


80,71 


1800 


Eritrea 


0,0257 


39,03 


13,36 


5,67 


700 


0,5300 


0,1230 




0,118 


52,7 


17,5 


0,448 


0,519 


0,033 


9500 


38100 


4.447.307 


75,59 


83,03 


67,94 


9500 


Estonia 


-0,0066 


9,79 


13,27 


1,39 


12300 




0,0130 


0,1010 




71,38 


38,8 


0,16 


0,675 


0,165 


444000 


475000 


1.341.664 


8,08 


9,32 


6,76 


444000 


Ethiopia 


0,0189 


39,23 


20,36 


5,44 


700 


0,5000 


0,1780 




0,052 


40,88 


17,4 


0,447 


0,525 


0,028 


75000 


435000 


67.851.281 


102,12 


112,22 


91,72 


75000 


Faroe Islands 


0,0066 


13,89 


8,68 


2,22 


22000 




0,0510 


0,0100 




79,05 


35,1 


0,216 


0,646 


0,137 


25000 


23000 


46.662 


6,38 


7,72 


5,03 


25000 


Fiji 


0,0141 


22,91 


5,68 


2,78 


5800 


0,2550 


0,0160 


0,0760 


0,022 


69,2 


24 


0,317 


0,643 


0,04 


55000 


102000 


880.874 


12,99 


14,36 


11,54 


55000 
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Finland 


0,0018 


10,56 


9,69 


1,73 


27400 




0,0090 


0,0900 


0,02 


78,24 


40,7 


0,175 


0,667 


0,157 


2650000 


2548000 


5.214.512 


3,59 


3,91 


3,26 


2650000 


France 


0,0039 


12,34 


9,06 


1,85 


27600 


0,0650 


0,0210 


0,0970 


0,026 


79,44 


38,6 


0,185 


0,651 


0,164 


21900000 


33905400 


60.424.213 


4,31 


4,83 


3,78 


21900000 


French 
Guiana 


0,0225 


21 


4,82 


3,05 


8300 




0,0150 


0,2200 




76,89 


28,3 


0,296 


0,645 


0,059 


3200 


51000 


191.309 


12,46 


13,3 


11,58 


3200 


Gabon 


0,0250 


36,4 


11,43 


4,8 


5500 




0,0050 


0,2100 


0,02 


56,46 


18,5 


0,422 


0,537 


0,041 


35000 


38400 


1.355.246 


54,34 


64,15 


44,23 


35000 


Gambia, The 


0,0298 


40,3 


12,08 


5,46 


1700 




0,1400 




0,003 


54,79 


17,5 


0,447 


0,526 


0,027 


25000 


38400 


1.546.848 


73,48 


80,14 


66,62 


25000 


Gaza Strip 


0,0383 


40,62 


3,95 


6,04 


600 


0,6000 


0,0220 






71,59 


15,5 


0,49 


0,483 


0,027 


60000 


95729 


1.324.991 


23,54 


24,71 


22,31 


60000 


Georgia 


-0,0036 


10,1 


8,98 


1,4 


2500 


0,5400 


0,0480 


0,1700 


0,0059 


75,62 


37 


0,187 


0,658 


0,155 


150500 


650500 


4.693.892 


19,34 


21,5 


16,84 


150500 


Germany 


0,0002 


8,45 


10,44 


1,38 


27600 




0,0110 


0,1050 


0,015 


78,54 


41,7 


0,147 


0,67 


0,183 


39000000 


54350000 


82.424.609 


4,2 


4,64 


3,73 


39000000 


Ghana 


0,0136 


24,9 


10,67 


3,17 


2200 


0,3140 


0,2670 


0,2000 


0,006 


56,27 


20 


0,38 


0,583 


0,037 


170000 


302300 


20.757.032 


52,22 


55,1 


49,25 


170000 


Greece 


0,0020 


9,73 


10,08 


1,32 


20000 




0,0360 


0,0940 


0,043 


78,94 


40,2 


0,145 


0,67 


0,186 


1718400 


5205100 


10.647.529 


5,63 


6,19 


5,04 


1718400 


Grenada 


0,0014 


22,61 


7,31 


2,41 


5000 


0,3200 


0,0280 


0,1250 




64,52 


20,9 


0,345 


0,62 


0,035 


15000 


33500 


89.357 


14,62 


14,18 


15,07 


15000 


Guadeloupe 


0,0096 


15,79 


6,05 


1,91 


8000 






0,2780 




77,71 


31,4 


0,244 


0,666 


0,09 


20000 


210000 


444.515 


8,83 


10,07 


7,53 


20000 


Guam 


0,0150 


19,31 


4,35 


2,61 


21000 


0,2300 


0,0000 


0,1500 




78,12 


28,2 


0,298 


0,64 


0,063 


50000 


84134 


166.090 


7,15 


7,8 


6,46 


50000 


Guatemala 


0,0261 


34,58 


6,79 


4,6 


4100 


0,7500 


0,0550 


0,0750 


0,008 


65,19 


18,4 


0,426 


0,54 


0,033 


400000 


846000 


14.280.596 


36,91 


37,71 


36,07 


400000 


Guinea 


0,0237 


42,26 


15,53 


5,87 


2100 


0,4000 


0,1480 




0,017 


49,7 


17,7 


0,444 


0,524 


0,032 


40000 


26200 


9.246.462 


91,82 


97,3 


86,18 


40000 


Guinea- 
Bissau 


0,0199 


38,03 


16,57 


5 


800 




0,0400 




0,028 


46,98 


18,9 


0,417 


0,554 


0,029 


19000 


10600 


1.388.363 


108,72 


119,37 


97,74 


19000 


Guyana 


0,0061 


17,85 


9,71 


2,06 


4000 




0,0570 


0,0910 


0,008 


62,43 


26,2 


0,265 


0,683 


0,051 


125000 


80400 


705.803 


37,22 


41,28 


32,95 


125000 


Haiti 


0,0171 


33,76 


13,21 


4,76 


1600 


0,8000 


0,3780 




0,009 


51,78 


18,1 


0,422 


0,541 


0,037 


80000 


130000 


7.656.166 


74,38 


79,83 


68,65 


80000 


Honduras 


0,0224 


31,04 


6,64 


3,97 


2600 


0,5300 


0,0770 


0,2750 


0,015 


66,15 


19 


0,412 


0,551 


0,037 


168600 


322500 


6.823.568 


29,64 


33,22 


25,89 


168600 


Hong Kong 


0,0065 


7,23 


5,98 


0,91 


28800 




-0,0260 


0,0790 




81,39 


39,4 


0,142 


0,733 


0,125 


3212800 


3801300 


6.855.125 


2,97 


3,16 


2,77 


3212800 


Hungary 


-0,0025 


9,77 


13,16 


1,31 


13900 


0,0860 


0,0470 


0,0590 




72,25 


38,4 


0,16 


0,69 


0,15 


1600000 


3666400 


10.032.375 


8,68 


9,34 


7,98 


1600000 


Iceland 


0,0097 


13,83 


6,57 


1,93 


30900 




0,0210 


0,0340 




80,18 


33,8 


0,225 


0,658 


0,117 


195000 


190700 


293.966 


3,31 


3,44 


3,17 


195000 


India 


0,0144 


22,8 


8,38 


2,85 


2900 


0,2500 


0,0380 


0,0950 


0,024 


63,99 


24,4 


0,317 


0,635 


0,048 


18481000 


48917000 


1.065.070.607 
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58,52 


57,29 


18481000 
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6,26 


2,47 
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0,2700 


0,0660 


0,0870 


0,013 


69,26 


26,1 


0,294 


0,655 


0,051 


80000 


7750000 


238.452.952 


36,82 


42,09 


31,29 


80000 


Iran 


0,0107 


17,1 


5,53 


1,93 


7000 


0,4000 


0,1640 


0,1570 




69,66 


23,5 


0,28 


0,672 


0,048 


4300000 


14571100 


69.018.924 


42,86 


43,01 


42,69 


4300000 


Iraq 


0,0274 


33,09 


5,66 


4,4 


1500 




0,2930 






68,26 


19,2 
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2,49 


2,05 


2310000 


Slovakia 


0,0014 


10,57 


9,48 


1,31 


13300 




0,0860 


0,1520 


0,0189 


74,19 


35,1 


0,175 


0,708 


0,117 


1375800 


1294700 


5.423.567 


7,62 


8,88 


6,28 


1375800 


Slovenia 


-0,0001 


8,9 


10,15 


1,23 


19000 




0,0560 


0,1120 


0,017 


75,93 


39,8 


0,143 


0,706 


0,151 


750000 


812300 


2.011.473 


4,5 


5,11 


3,84 


750000 


Somalia 


0,0341 


46,04 


17,3 


6,91 


500 








0,009 


47,71 


17,6 


0,447 


0,527 


0,027 


89000 


100000 


8.304.601 


118,52 


127,95 


108,81 


89000 


South Africa 
i 


-0,0025 

i 


18,38 

i i 


20,54 

i 


2,18 

i i 


10700 

i 


0,5000 

i i 


0,0590 

i 


0,3100 

i i 


0,017 


44,19 

i i 


24,7 

i 


0,295 

i 


0,653 

i i 


0,052 

i i 


3100000 


4844000 

i 


42.718.530 

i i 


62,18 

i i 


65,87 

i i 


58,4 

i 


3100000 

i i 
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Spain 


0,0016 


10,11 


9,55 


1,27 


22000 




0,0300 


0,1130 


0,012 


79,37 


39,1 


0,144 


0,68 


0,176 


9789000 


17567500 


40.280.780 


4,48 


4,88 


4,06 


9789000 


Sri Lanka 


0,0081 


15,88 


6,47 


1,88 


3700 


0,2200 


0,0630 


0,0840 


0,032 


72,89 


29,1 


0,248 


0,682 


0,07 


200000 


881400 


19.905.165 


14,78 


16,01 


13,5 


200000 


Sudan 


0,0264 


35,79 


9,37 


4,97 


1900 




0,0880 


0,1870 


0,025 


58,13 


17,9 


0,437 


0,541 


0,023 


300000 


900000 


39.148.162 


64,05 


64,8 


63,26 


300000 


Suriname 


0,0031 


18,87 


6,99 


2,37 


4000 


0,7000 


0,1700 


0,1700 


0,007 


69,1 


25,8 


0,302 


0,637 


0,061 


20000 


79800 


436.935 


24,15 


28,24 


19,85 


20000 


Swaziland 


0,0055 


28,55 


23,06 


3,81 


4900 


0,4000 


0,0730 


0,3400 


0,018 


37,54 


18,6 


0,41 


0,553 


0,037 


27000 


46200 


1.169.241 


68,35 


71,64 


64,96 


27000 


Sweden 


0,0018 


10,46 


10,38 


1,66 


26800 




0,0190 


0,0490 


0,021 


80,3 


40,3 


0,175 


0,652 


0,173 


5125000 


6579200 


8.986.400 


2,77 


2,93 


2,6 


5125000 


Switzerland 


0,0054 


9,83 


8,44 


1,42 


32700 




0,0060 


0,0370 


0,01 


80,31 


39,5 


0,168 


0,679 


0,153 


2556000 


5419000 


7.450.867 


4,43 


4,94 


3,89 


2556000 


Syria 


0,0240 


28,93 


4,96 


3,61 


3300 


0,2000 


0,0150 


0,2000 


0,059 


69,71 


20 


0,38 


0,587 


0,033 


220000 


2099300 


18.016.874 


30,6 


30,82 


30,35 


220000 


Taiwan 


0,0064 


12,7 


6,29 


1,57 


23400 


0,0100 


-0,0030 


0,0500 


0,027 


77,06 


33,7 


0,199 


0,707 


0,094 


8830000 


13355000 


22.749.838 


6,52 


7,21 


5,77 


8830000 


Tajikistan 


0,0214 


32,63 


8,42 


4,11 


1000 


0,6000 


0,1630 


0,4000 


0,039 


64,47 


19,5 


0,392 


0,561 


0,047 


4100 


242100 


7.011.556 


112,1 


124,47 


99,11 


4100 


Tanzania 


0,0195 


39 


17,45 


5,15 


600 


0,3600 


0,0440 




0,002 


44,39 


17,6 


0,442 


0,532 


0,026 


250000 


149100 


36.588.225 


102,13 


111,62 


92,35 


250000 


Thailand 


0,0091 


16,04 


6,94 


1,89 


7400 


0,1040 


0,0180 


0,0220 


0,018 


71,41 


30,5 


0,241 


0,687 


0,073 


6031300 


6600000 


64.865.523 


21,14 


22,49 


19,73 


6031300 


Togo 


0,0227 


34,36 


11,64 


4,79 


1500 


0,3200 


-0,0100 




0,019 


53,05 


17,6 


0,439 


0,536 


0,026 


210000 


60600 


5.556.812 


67,66 


75,4 


59,69 


210000 


Tonga 


0,0194 


24,87 


5,45 


3 


2200 




0,1030 


0,1330 




69,2 


20,1 


0,371 


0,587 


0,042 


2900 


11200 


110.237 


12,99 


14,36 


11,54 


2900 


Trinidad and 
Tobago 


-0,0071 


12,75 


9,02 


1,77 


9500 


0,2100 


0,0380 


0,1040 


0,006 


69,28 


30,4 


0,214 


0,706 


0,081 


138000 


325100 


1.096.585 


24,64 


26,58 


22,61 


138000 


Tunisia 


0,0101 


15,74 


5,05 


1,79 


6900 


0,0760 


0,0270 


0,1430 


0,015 


74,66 


26,8 


0,26 


0,675 


0,065 


630000 


1163800 


9.974.722 


25,76 


28,7 


22,59 


630000 


Turkey 


0,0113 


17,22 


5,95 


1,98 


6700 


0,1800 


0,2530 


0,1050 


0,053 


72,08 


27,3 


0,266 


0,668 


0,066 


5500000 


18916700 


68.893.918 


42,62 


46,3 


38,76 


5500000 


Turkmenistan 


0,0181 


27,82 


8,82 


3,45 


5800 


0,3440 


0,0950 




0,034 


61,29 


21,3 


0,362 


0,597 


0,041 


8000 


374000 


4.863.169 


73,13 


76,9 


69,16 


8000 


Uganda 


0,0297 


46,31 


16,61 


6,64 


1400 


0,3500 


0,0790 




0,021 


45,28 


14,8 


0,506 


0,471 


0,024 


125000 


61000 


26.404.543 


86,15 


93,58 


78,5 


125000 


Ukraine 


-0,0066 


10,21 


16,41 


1,37 


5400 


0,2900 


0,0520 


0,0370 


0,014 


66,68 


38,1 


0,159 


0,687 


0,154 


900000 


10833300 


47.732.079 


20,61 


21,87 


19,28 


900000 


United Arab 
Emirates 


0,0157 


18,65 


4,14 


3,02 


23200 




0,0320 


0,0240 


0,031 


74,99 


27,7 


0,259 


0,709 


0,032 


1110200 


1135800 


2.523.915 


15,06 


17,71 


12,29 


1110200 


United 
Kingdom 


0,0029 


10,88 


10,19 


1,66 


27700 


0,1700 


0,0140 


0,0500 


0,024 


78,27 


38,7 


0,18 


0,663 


0,157 


250000 


34898000 


60.270.708 


5,22 


5,83 


4,58 


250000 


United 
States 


0,0092 


14,13 


8,34 


2,07 


37800 


0,1200 


0,0230 


0,0600 




77,43 


36 


0,208 


0,669 


0,124 


159000000 


181599900 


293.027.571 


6,63 


7,31 


5,91 


159000000 


Uruguay 


0,0051 


14,44 


9,07 


1,96 


12800 


0,2370 


0,1940 


0,1600 


0,02 


75,92 


32,2 


0,235 


0,634 


0,131 


400000 


946500 


3.399.237 


12,31 


13,67 


10,91 


400000 


Uzbekistan 


0,0165 


26,12 


7,95 


2,97 


1700 




0,1310 


0,0050 


0,02 


64,09 


22,1 


0,341 


0,611 


0,048 


492000 


1717100 


26.410.416 


71,3 


75,03 


67,39 


492000 
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Venezuela 


0,0144 


19,34 


4,9 


2,31 


4800 


0,4700 


0,3110 


0,1800 


0,013 


74,06 


25,2 


0,305 


0,645 


0,05 


1274400 


2841800 


25.017.387 


22,99 


26,18 


19,57 


1274400 


Vietnam 


0,0130 


19,58 


6,14 


2,22 


2500 


0,3700 


0,0310 


0,0610 


0,025 


70,35 


24,9 


0,294 


0,65 


0,056 


3500000 


4402000 


82.689.518 


29,88 


33,71 


25,77 


3500000 


West Bank 


0,0321 


33,21 


4,07 


4,52 


800 


0,6000 


0,0220 


0,5000 




72,88 


18 


0,438 


0,528 


0,035 


145000 


301600 


2.311.204 


20,16 


22,28 


17,91 


145000 


Yemen 


0,0344 


43,16 


8,78 


6,75 


800 


0,1570 


0,1080 


0,3500 


0,079 


61,36 


16,5 


0,466 


0,506 


0,028 


100000 


542200 


20.024.867 


63,26 


68,12 


58,15 


100000 


Zambia 


0,0147 


38,99 


24,35 


5,14 


800 


0,8600 


0,2140 


0,5000 


0,009 


35,18 


16,6 


0,461 


0,511 


0,028 


68200 


88400 


10.462.436 


98,4 


105,6 


90,98 


68200 


Zimbabwe 


0,0068 


30,05 


23,3 


3,6 


1900 


0,7000 


3,8470 


0,7000 


0,017 


37,82 


19,1 


0,394 


0,57 


0,036 


500000 


300900 


12.671.860 


67,08 


69,74 


64,33 


500000 






<< hoch zum Anfang vom Inhaltsverzeichnis 

12. Sandkasten fur Ubungsaufgaben 

** w « hoch zum Kapitel 12 vom Inhaltsverzeichnis 


Sandkasten fur Aufgabenvorschlage, Kritik, Losungen usw. 

Das Ganze entwickelt eine unvorhergesehene Eigendynamik, was zwar chaotisch, aber auch durchaus reizvoll ist. Mai schaun, wann die 
Diskussionsseite in Betrieb genommen werden muss 


Bemerkun 

Eigentlich dacr 

Hallo Unbekan 
kritisch durch. 
selber nachrec 
12:30, 12. Sep 


gen 


ite ich hier an neueAufgaben ... Abertrotzdem danke, der Hinweis in Aufgabe 2 ist richtig. 

ite(r), da Du ja offensichtlich gern Aufgaben lost, schau doch mal weitere Aufgaben in Mathematik: Statistik: Ubungsaufgi 
Ich habe ubrigens die bereits von Dir gelosten noch nicht uberpruft, weil ich dann a) die Losungen hervonkramen musste c 
hnen musste, wozu bei beidem ich noch nicht gekommen bin. Scheinen aber auf den ersten Blick o.k. zu sein. -Philipen 
2004 (UTC) 


aben 
der b) 
dula 

3,4,5} 1. 
3ngen 


Also Aufgabe 1 ist falsch ... OMEGA={1,2,3,4,5,6,7} - dabei bezeichnet {1}= "die Anlage wird in einem Tag fertig" etc.; A={5,6,7} B={1,2,: 
A_c={1,2,3,4} d.h. die Anlage wird in hochstens 4 Tagen fertig 2. Die Schnittmege zweier Mengen bezeichnet die Elemente, die beide M 
gemeinsamen haben: AundB={5} 3. Ist diese Schnittmenge leer, heifeen die Mengen disjunkt (kleine Erganzung;-): also nein, wie bereits 
angegeben. 4. sowohl AundB als auch A_c sind Teilmengen von B. bzw: {5} vereinigt {1,2,3,4} vereinigt B = B vereinigt B = B. 


Bei Aufgabe 5 ist max(P(L|V),P(S|V),P(F|V)) gesucht, da die Vorbedingung lautet, dass die Wand zerkratzt wurde. Wenn jeder nur -2% 
verdachtig ware, ware das sehr mystisch. 

Jo. Wurde von einer IP gelost. Ich denke, die Person hat sich auf den Zahler der W. konzentriert, denn es langt ja, wenn man den 
maximalen Zahler ermittelt. -Philipendula 16:06, 27. Apr 2006 (UTC) 

Platz fur Aufgabenvorschlage 


Hierwarschonjemand mutig: 


Aufgabe 1 

Eine Porzellanfabrik erhalt eine neue Mischanlage fur spezielles Steingut. Diese muss eingerichtet und angepasst werden. Man geht davon aus, 
dass die Anlage in hochstens neun Tagen einsatzbereit ist. Wir definieren als Ereignisse 

A: Es dauert mehrals 4 Tage, bis die Anlage einsatzbereit ist. B: Es dauert weniger als 6 Tage, bis die Anlage einsatzbereit ist. 

1 . Beschreiben Sie das Komplement zu A. 

2. Beschreiben Sie die Schnittmenge zwischen A und B. 

3. Sind A und B disjunkt? 

4. Zeigen Sie , dass (AundB)oder(nichtAundB) = B ist. 
Aufgabe 2 
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Wir beziehen uns auf Aufgabe 1 Die Werksleitung vermutet fur die Zahl der Tage, die benotigt werden, um die Anlage einzurichten, die 
Wahrscheinlichkeiten, wie in derfolgenden Tabelle angegeben: 



Zahl der Tage 



Wahrscheinlichkeit 0,08 0,24 0,41 0,20 0,07 



1. Geben Sie die Wahrscheinlichkeiten fur A und B an.# 

2. Geben Sie die Wahrscheinlichkeit fur die Schnittmenge von A und B an. 

3. Geben Sie die Wahrscheinlichkeit fur die Vereinigungsmenge von A und B an. 

4. Jeder unproduktive Tag kostet die Firma 3000 Euro. Mit welcher Wahrscheinlichkeit muss die Firma mit Kosten von hochstens 15.000 
Euro rechnen? 

Aufgabe 3 

Die Leitung eines Kaufhauses hat fur das vergangene Jahr die Zahl der wochentlich eingegangenen Beschwerden uber Servicemangel im 
Kaufhaus analysiert. Es ergaben sich die Wahrscheinlichkeiten fur die Zahl der Beschwerden pro Woche: 



Zahl der Beschwerden 1 - 34 - 6 



7-9 



10-12 



mehr als 12 



Wahrscheinlichkeit 0,14 0,39 0,23 0,15 0,06 



0,03 



Wir definieren die Ereignisse: 

A: Es trifft in einer Woche mindestens eine Beschwerde ein 
B: Es treffen in einer Woche weniger als 10 Beschwerden ein. 

1. Geben Sie die Wahrscheinlichkeiten fur A und B an. 

2. Bestimmen Sie die Gegenwahrscheinlichkeit von A. 

3. Geben Sie die Wahrscheinlichkeit fur die Schnittmenge von A und B an. 

4. Geben Sie die Wahrscheinlichkeit fur die Vereinigungsmenge von A und B an. 

Aufgabe 4 

Die Auto-Alarmanlage Heulomat heult erfahrungsgemaft bei 90% der Autoknacker, die sich am Auto zu schaffen machen. Leider heult sie auch 
bei 60% aller harmlosen Kollisionen, beispielsweise mit Spaziergangern. Man vermutet, dass insgesamt 80% aller Erschutterungen eines Autos 
harmlos sind. 

1. In wie viel Prozent aller Falle heult die Anlage berechtigterweise? 

2. Wie graft ist die Wahrscheinlichkeit, dass bei einer beliebigen Erschutterung die Anlage nicht heult? 

Aufgabe 5 

In einem Mietshaus wird Dienstags die Mulltonne entleert. Bei 30% der Leerungen stellt Herr Lohlein die Mulltonne raus, bei 20% der Leerungen 
Frau Susemihl und bei 50% aller Leerungen Herr Feinbein. Eines Tages stellt der Hausmeister fest, dass die Wand im Flur verschrammt ist. Er 
weift, dass Herr Lohlein beim Mulltonne Tragen mit einer Wahrscheinlichkeit von 7%, Frau Susemihl mit einer Wahrscheinlichkeit von 8% und 
Herr Feinbein mit einer Wahrscheinlichkeit von 5% mit der Tonne an der Wand entlang kratzen. 

1. Welcher Bewohner ist am „verdachtigsten"? 

2. Mit welcher Wahrscheinlichkeit wird nachsten Dienstag die Wand verkratzt? 
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Aufgabe 6 

Ein Zulieferer von mechanischen Teilen fur die Autoindustrie hat sich in den Liefervereinbarungen verpflichtet, die vereinbarten Qualitatsstandards 
regelmassig zu kontrollieren und mit einer Sicherheit von mindestens 95% einzuhalten. Fur den Durchmesser des Wellentyps W1 gilt als 
Qualitatsstandard, dass er normal verteilt sein soil mit einem Mittelwert von 200 mm und einer Standardabweichung von 5 mm. Dabei sind 
Abweichungen in beiden Richtungen uberprufungsrelevant und sollen mit einer Genauigkeit von 1/10 mm berucksichtigt werden. Die 
Qualitatskontrolle findet standardmassig mit Zufallstichproben von 100 Wellen statt. Im vorliegenden Fall soil die Einhaltung des vereinbarten 
Mittelwertes uberpruft werden. 

1. Formulieren sie die Hypothesen 

2. nennen sie die Prufgrofle und ihre Wahrscheinlichkeitsverteilung (verteilungstyp, Parameter und -werte) 

3. stellen sie die prufverteilung in geeigneter form graphisch dar 

4. ermitteln sie nachvollziebarden annahme- und ablehnbereich des tests. 

Losungen 

Aufgabe 1 

1. = (nicht A) = hochstens 6 Tage --> "rnehr als 6" : 7,8,9 ! 

2. = (A und B) = 7 Tage 

3. Nein, sie haben ein gemeinsames Element. 

4. (A und B) = 7d; (nichtA und B) = (<=6d und < 8d) = (nicht A) = (<6d); ==> (7d und <=6d)=< 8d=B !!! 

Aufgabe 2 

1. w(A) = w(5) + w(6) + w(7) = 0,68; w(B) = w(3) + w(4) + (w5) = 0,73; w(AundB) = w(5) = 0,41 (Aufgabe unprazise formuliert - 
Wahrscheinlichkeiten fur A und furB oder W.-keit fur (A und B) ?) 

2. = w(A und B) = w(5) = 0,41 

3. = w(A Oder B) = w(A) + w(B) - w(A und B) = 1 

4. w(k<=15000) = w(<=(1 5000:3000)) = w(<=5) = w (B) = 0,73 

Aufgabe 3 

1. w(A) = 1 - w(0) = 0,86; w(B) = 1 - (w (10-12) + w(>12) ) = 0,91 

2. w(nichtA) = 1 - w(A) = w(0) = 0,14 

3. w(A und B) = 1 - (w(nichtA) + w(nichtB)) = 0,77 

4. w(A Oder B) = w(A) + w(B) - w(AundB) = 1 
geandert =)(letztes oder -> und) 

Aufgabe 4 

(Auch hierist die Problemstellung etwas unprazise. Es wird keine Aussage gemacht, ob die "Autoknacker" und die "harmlosen 
Fufigangerkollisionen" (??) zusammen alle relevanten Erschutterungen ausmachen. Es wird ausnahmsweise mal vorausgesetzt.) 

Es heiftt doch, alle harmlosen Kollisionen, z.B. mit Spaziergangern — Philipendula 19:28, 11. Sep 2004 (UTC) 

Die Wahrscheinlichkeiten, dass eine Erschutterung harmlos(h) bzw. durch einen Autoknacker (a) verursacht ist, betragen 

• w(h) = 0,8 

• w(a) = 0,2 

1. w (b) = 0,9 * w(a) = 0,18 = 18% aller Falle (also Erschutterungen) bzw. (0,9 * w(a)) / (0,9 * w(a) + 0,6 * w(h)) = 0,27... = 27,27% aller 
Falle, in denen Alarm ausgelost wird (unklare Fragestellung!) 

2. w (n) = (1-0,9) * w(a) + (1-0,6) * w(h) = 0,34 = 34% 

Aufgabe 5 

1. Besser, der Hausmeister stellt die Tonnen selber raus. Wozu ist er da? 
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Zum Tyrannisieren der Mieter und der Studies, die diese Aufgabe losen mussen ;-) -Philipendula 19:30, 11. Sep 2004 (UTC) 

• w(L) = 0,3 * 0,07 = 0,021 = 2,1% 

• w(S) = 0,2 * 0,08 = 0,016 = 1,6% 

• w(F) = 0,5 * 0,05 = 0,025 = 2,5% (-> am meisten verdachtig) 
2. w(Z) = w(L) + w(S) + w(F) = 6,2% 



Kategorie: Buch mit Druckversion 



Diese Seite w urde zuletzt am 30. Juni 2008 um 21 :02 Uhr geandert. 

Der Text ist unter der Lizenz ..Creative Commons Attribution/Share-Alike" verfiigbar; zusatzliche Bedingungen konnen anwendbar sein. Bnzelheiten sind in den 
Nutzungsbedingungen beschrieben. 



Datenschutz Uber Wikibooks Impressum 



I! il 



PawwBd By 

MttdcMH 



lWIKI MEDIA 



PDFmyURL.com 



